邵鴻翔 趙杭生 孫有銘 孫豐剛
?
面向分層異構(gòu)網(wǎng)絡(luò)的資源分配:一種穩(wěn)健分層博弈學習方案
邵鴻翔*①④趙杭生②孫有銘③孫豐剛①
①(解放軍理工大學通信工程學院 南京 210007);②(南京電訊技術(shù)研究所 南京 210007);③(解放軍信息工程大學信息系統(tǒng)工程學院 鄭州 450000);④(洛陽理工學院 洛陽 471023)
該文研究了信道狀態(tài)不確定條件下分層異構(gòu)微蜂窩網(wǎng)絡(luò)中的無線資源分配優(yōu)化問題。首先引入信道不確定模型描述無線信道的隨機動態(tài)性,并將該問題建模為考慮信道不確定度的雙層魯棒斯坦伯格博弈;然后給出了該博弈的均衡點分析;最后提出了一種分布式改進型分層Q學習方案以實現(xiàn)宏基站和微基站的均衡策略搜索。理論分析和仿真表明,所提出的分層博弈模型可以有效抑制由于信道狀態(tài)不確定引起的收益下降。所采用的學習方案較傳統(tǒng)Q學習方案收斂速度明顯加快,更加適用于短時快變的通信環(huán)境。
異構(gòu)網(wǎng)絡(luò);斯坦伯格博弈;不完美信道信息;魯棒決策;雙層Q學習;離散策略
隨著5G中新媒體數(shù)據(jù)應(yīng)用需求的不斷增長,密集組網(wǎng)技術(shù)將成為下一代通信的關(guān)鍵技術(shù)之一。通過在宏蜂窩基站(Macro-cell Base Station, MBS)周圍布設(shè)小蜂窩基站(Small-cell Base Station, SBS),能夠擴展覆蓋區(qū)域,改善能量效率,提高用戶體驗。異構(gòu)分層蜂窩網(wǎng)大都采用分享復用的用頻模式(shared-spectrum),這種方式在增加頻譜的空間重用效率的同時會引起小蜂窩與主蜂窩間的跨層干擾以及小蜂窩間的同層干擾,如果不進行適當?shù)母蓴_協(xié)調(diào),會造成基站間干擾的加劇和發(fā)射功率的巨大浪費[1]。
雙層斯坦伯格博弈是一種處理不同等級理性參與者相互間利益決策的方法,已被廣泛應(yīng)用于分析和解決分層網(wǎng)絡(luò)的資源分配問題[2]。文獻[3,4]應(yīng)用斯坦伯格博弈模型研究了雙層網(wǎng)絡(luò)中功率分配和干擾控制的問題。然而這些文獻的研究都是假設(shè)所有用戶和基站間信道狀態(tài)信息(Channel State Information, CSI)已知,并據(jù)此做相應(yīng)的決策。但是在實際情況下,由于無線信道的動態(tài)隨機特性,現(xiàn)有模型中不同層級間的基站用戶完美獲取相互間信道信息并不實際。如果使用以往在完美信道信息條件下得到的資源分配策略很可能使實際系統(tǒng)的性能惡化。在優(yōu)化領(lǐng)域有兩種方法用來處理信息的不確定,分別是基于概率分布的貝葉斯模型[5]和考慮極端情況的魯棒優(yōu)化模型[6]。在已知不確定信息發(fā)生概率分布的前提下,貝葉斯模型是用其期望值來表示不確定信息,但現(xiàn)實中信息的分布卻難以得到;由于現(xiàn)實中環(huán)境參數(shù)的不確定度往往是有界的,魯棒控制理論通過假定不確定度在一定范圍內(nèi)變化來進行建模[7]。另外,現(xiàn)有的工作大都是考慮連續(xù)數(shù)值的資源分配問題。相比連續(xù)的資源分配策略,離散策略的資源分配方式可簡化傳輸設(shè)計和數(shù)據(jù)處理,降低基站之間的信息交換開銷,如在3GPP LTE蜂窩網(wǎng)絡(luò)中就只支持離散功率控制的下行傳輸[8]。
本文將基于頻譜復用的下行異構(gòu)蜂窩網(wǎng)絡(luò)模型,研究在不完美信道信息條件下雙層網(wǎng)絡(luò)的分布式離散策略資源分配問題。通過引入干擾付費機制,建立魯棒離散策略的斯坦伯格博弈模型。針對常用離散策略決策中使用的強化Q學習方法收斂速度慢的問題,提出一種改進的分布式雙層Q學習高效算法尋找穩(wěn)定解,并探討不確定因素對參與者的決策的影響。
下行鏈路的OFDM雙層蜂窩網(wǎng)絡(luò)模型如圖1所示。MBS和SBSs分享復用網(wǎng)絡(luò)頻譜資源。每個基站間通過數(shù)字用戶線鏈接,作為控制信道用來交換信息。為便于分析,假設(shè)每個基站在一個時隙只服務(wù)一個用戶。因為SBS與MBS復用相同的頻段,就不可避免地發(fā)生不同基站間的跨層和同層干擾。為了保護MBS內(nèi)宏用戶的通信質(zhì)量,我們使用干擾價格對下層SBS的發(fā)射功率加以約束,并限定SBS對MBS的累積干擾必須小于門限值。這樣,SBS需要優(yōu)化自己的功率策略來獲取干擾代價和自身通信收益的平衡。而上層MBS希望在干擾滿足限定約束的條件下,盡可能提高對下層SBS干擾收費的總收益。斯坦伯格博弈是一種存在雙層結(jié)構(gòu)的非合作博弈,可用于本文去聯(lián)合優(yōu)化上下層用戶的效用。上層博弈參與者作為leader,具有強勢地位,首先做出決策并向下層廣播;下層參與者follower是跟隨關(guān)系,根據(jù)上層的決策從可能的策略集中選擇對自己最有利的策略。本文采用單leader多follower形式。MBS作為leader首先行動,發(fā)布單位干擾定價;SBSs作為follower,根據(jù)上層MBS的定價,選擇最優(yōu)功率分配策略來最大化其效用收益。
圖1 異構(gòu)雙層網(wǎng)絡(luò)模型
對于下層小蜂窩,SBS接收到的信干噪比可寫為
(2)
式(2)由3部分組成,分別表示SBS的容量收益,功耗代價和SBS對MBS帶來的干擾,其中表示帶寬,表示SBS對MBS宏用戶的信道增益,表示單位能耗定價,表示單位干擾定價。下層SBS必須選擇合適的功率策略最大化自己的效用。對于每個SBS而言,優(yōu)化問題可建模為式(3)所示的問題1:
對于上層MBS,其目標是在其干擾可承受的范圍內(nèi),最大化下層SBS對其干擾的累加付費收益。所以上層的優(yōu)化目標可建立為帶約束優(yōu)化問題,如式(4)所示的問題2:
(4)
信道不確定條件下的魯棒斯坦伯格博弈
下層SBS的效用函數(shù)可轉(zhuǎn)化為
類似地,上層MBS的效用函數(shù)轉(zhuǎn)化為
(6)
利用柱形模型[9]和柯西不等式,信道增益不確定分量的上界及由不確定所帶來的最大干擾可分別表征為
(8)
斯坦伯格博弈是一種雙層博弈的模型,下層效用式(8)和上層效用式(9)一同形成斯坦伯格博弈。博弈的目標是找到斯坦伯格均衡(Stackelberg Equilibrium, SE),使得上下層用戶都不能通過單獨改變其策略而得到自身效用的提高。下面分析所提雙層斯坦伯格博弈均衡。
首先,將本文的斯坦伯格博弈表示為
斯坦伯格均衡是本文所提博弈的穩(wěn)定解,它意味著沒有參與者可以通過單方面的改變策略來提高自己的效用。找出穩(wěn)定均衡解是非合作博弈建模的基礎(chǔ)和首要問題,下面將證明本文提出的博弈具有唯一SE。
當其等于零時,可求出下層SBS的最優(yōu)功率,如式(13)所示:
(13)
由式(14)可知,下層效用是一個凸函數(shù),一定存在最優(yōu)極值。 證畢
(16)
由性質(zhì)1和性質(zhì)2可證明上下兩層都具有均衡解,所以所提博弈具有SE,定理1成立。
強化學習是一種動態(tài)規(guī)劃算法,具有處理離散決策問題的優(yōu)勢,主要應(yīng)用在最優(yōu)控制理論中。本節(jié)將在文獻[10,11]的所提強化Q學習思路的基礎(chǔ)上,針對學習效率低的問題,提出改進型雙層Q學習算法來找到均衡解。在本文所提的雙層博弈框架中,每個參與博弈的用戶都具有有限離散策略集。定義用戶的可用策略集為,表示策略集的個數(shù)。定義其在第次迭代時,各策略概率矢量為,同時滿足概率和。這樣,用戶的期望效用可表示為
在Q學習過程中,用戶的策略被參數(shù)化為函數(shù),它表示每個特定策略的相對效用。參與博弈的用戶每次改變策略都將帶來即時回報。通過不斷嘗試,用戶最后會選擇最大化長期回報的最優(yōu)行動策略[12]。定義用戶在第次迭代時基于策略概率所選的策略的函數(shù)為。通過用戶之間的策略和環(huán)境交互,得到每個策略的相應(yīng)回報獎勵,更新函數(shù)。在選擇策略后,相應(yīng)的值通過式(18)更新:
是用戶在第次迭代選擇策略的期望回報。其中且。每個基站用戶根據(jù)式(19)的玻爾茲曼分布來更新其策略。
圖2 雙層Q學習算法流程圖
下層SBS的函數(shù)通過式(20)更新:
(21)
在實際算法運行過程中,當用戶的策略集相對較大時,收斂的速度將指數(shù)增加。而文獻[12]的算法,每次只更新一個策略的值,無法滿足雙層迭代的速率要求。如果能更高效利用交互信息,在一次迭代中更新所有策略的值,算法收斂速度會有明顯提升。本文提出改進型雙層Q學習算法,具體步驟如表1所示。
表1改進型雙層Q學習算法
改進型雙層Q學習算法 步驟1 上層學習過程c=1:C。初始化所有用戶Q函數(shù)=0,; 為各策略等概率分布。步驟2 下層學習過程t=1:T(1)在每個時間段開始,MBS根據(jù)其策略概率集,選擇一個定價策略,并廣播給所有的下層SBS。(2)每個SBS i根據(jù)自己的策略概率集選擇各自功率策略。(3)每個SBS i根據(jù)反饋信息計算其效用,并根據(jù)式(21)更新其估計期望效用。(4)每個SBS i根據(jù)式(8)計算其他個策略的效用 。(5)每個SBS i根據(jù)式(20)和式(19)更新其Q值和策略概率集。(6)在T時隙結(jié)束,所有SBS把最后策略傳給MBS。步驟3 MBS計算其第c個時間段的效用,并根據(jù)式(22)和式(19)更新其Q值和策略概率集。步驟4 MBS根據(jù)其已更新的策略概率集選擇上層策略。步驟5 c =c +1,直到c =C最大時間段數(shù)。
本節(jié)將通過仿真來分析所提博弈模型和改進型雙層Q學習算法的性能。不失一般性,考慮一個MBS和兩個SBS組成的異構(gòu)網(wǎng)絡(luò),每個基站服務(wù)一個用戶。設(shè)置SBS1和SBS2對MBS宏用戶的標稱信道增益分別為,下層SBS間的標稱干擾信道增益分別是,歸一化SBS對其自身用戶的信道增益為。噪聲功率。設(shè)MBS的干擾價格策略集為[2.5,3.0,3.5,4.0,4.5],SBS的功率分配策略集為,其中SBS的最大傳輸功率。設(shè)置每個時間段由個時隙組成,上層迭代時間段數(shù)。對于不確定模型,我們假設(shè)不確定度是隨標稱值線性變化,不確定部分服從均勻分布,表示不確定值與標稱值的比例。因此我們得到不確定界。
首先研究算法得到SE的收斂性。當不確定度增加時,只是效用函數(shù)中的信道數(shù)值發(fā)生變化,博弈參與者策略的選擇有所不同,但收斂形式類似,所以我們以完美信道條件為例說明算法的收斂性。圖3、圖4、圖5分別給出了Q學習算法改進前后收斂性能比較,可看出改進算法的收斂速度和收斂效果都要好于原算法,且改進算法中各離散策略經(jīng)過較少迭代便可達收斂到一個純策略,而原算法只能收斂到一個混合策略。
圖6展示了上層MBS的干擾約束對其收益的影響,在保護上層MBS傳輸?shù)那疤嵯?,上層MBS對于干擾的容忍度越大則收益越多。另外,上層擁有先動優(yōu)勢,下層只是被動接受調(diào)整,所以在條件變動的情況下,上層總是獲得盡可能多的收益。圖7給出了采用魯棒建模方法前后,隨不確定度等級變化時,MBS收益情況。隨著不確定度等級的增加,信道狀態(tài)相對估計標稱值惡化加劇。采用魯棒建模MBS的收益比原MBS收益有較大改善。對于提出的魯棒方法,上層MBS考慮了最差信道狀態(tài)信息,MBS隨著信道變化而根據(jù)收益情況,自適應(yīng)改變了自己的相應(yīng)定價策略,使得總收益總是向著自己有利的方式改變。
圖3 兩種算法的期望收益比較 圖4 SBS1策略的兩種算法各策略收斂性比較 圖5 MBS策略的兩種算法各策略收斂性比較
圖6 不同干擾門限值下的MBS收益 圖7 不同不確定度下的MBS收益
本文針對無線異構(gòu)網(wǎng)絡(luò)中實際信道信息獲取不完美,從而導致信道不確定度變化引起的用戶收益減少問題,提出了一種基于斯坦伯格博弈模型的分布式魯棒資源分配方案。證明了所提雙層博弈模型均衡的存在性和唯一性。針對用戶采用離散策略集方式,提出一種改進型的分布式雙層Q學習算法。通過仿真表明,本文設(shè)計的魯棒模型能有效抑制隨不確定度變化帶來的用戶收益減少的問題。與原算法相比,所提算法在收斂速度和性能上都有較大提升。
[1] ZAHIR T, ARSHAD K, NAKATA A,Interference management in femtocells[J].&, 2013, 15(1): 293-311.doi: 10.1109/SURV.2012. 020212.00101.
[2] HAN Zhu, NIYATO D, SAAD W,Game Theory in Wireless and Communication Networks[M]. Cambridge: UK, Cambridge University Press, 2012: 88-91.
[3] 扶奉超, 張志才, 路兆銘, 等. Femtocell雙層網(wǎng)絡(luò)中基于Stackelberg博弈的節(jié)能功率控制算法[J]. 電子科技大學學報, 2015, 44(3): 363-368.
FU Fengchao, ZHANG Zhicai, LU Zhaoming,. Energy- efficient power control algorithm based on Stackelberg game in two-tier femtocell Networks[J]., 2015, 44(3): 363-368.
[4] LASHGARI M, MAHAM B, KEBRIAEI H,. Distributed power allocation and interference mitigation in two-tier femtocell networks: A game-theoretic approach[C]. Wireless Communications and Mobile Computing Conference, Dubrovnik, Croatia, 2015: 55-60.
[5] DUONG N D, MADHUKUMAR A S, and NIYATO D. Stackelberg Bayesian game for power allocation in two-tier networks[J]., 2016, 65(4): 2341-2354. doi: 10.1109/TVT.2015.2418297.
[6] ZHU Kun, HOSSAIN E, and ANPALAGAN A. Downlink power control in two-tier cellular OFDMA networks under uncertainties: A robust Stackelberg game[J]., 2015, 63(2): 520-535. doi: 10.1109/TCOMM.2014.2382095.
[7] 吳敏, 何勇. 魯棒控制理論[M]. 北京: 高等教育出版社, 2010.
[8] ZHANG H, VENTURINO L, PRASAD N,Weighted sum-rate maximization in multi-cell networks via coordinated scheduling and discrete power control[J]., 2011, 29(6): 1214-1224. doi: 10.1109/JSAC.2011.110609.
[9] YANG K, WU Y, and HUANG J. Distributed robust optimization for communication networks[C]. IEEE Infocom Conference, Phoenix, AZ, USA, 2008: 1157-1165. doi: 10.1109/ INFOCOM.2008.171.
[10] FUDENBURG D and TIROLE J. Game Theory[M]. Cambridge, MA, USA, The MIT Press, 1991: 29-34.
[11] CHEN X, ZHANG H, CHEN T. Improving energy efficiency in femtocell networks: A hierarchical reinforcement learning framework[C]. IEEE International Conference on Communications (ICC), Budapest, Hungary, 2013: 2241- 2245. doi: 10. 1109/ICC.2013.6654861.
[12] WATKINS C and DAYAN P. Q-learning[J]., 1992, 8(1): 279-292.
邵鴻翔: 男,1983年生,博士生,講師,研究方向為異構(gòu)無線網(wǎng)絡(luò)資源分配、博弈論、電磁頻譜管理.
趙杭生: 男,1962年生,博士,博士生導師,研究方向為異構(gòu)無線網(wǎng)絡(luò)資源分配、電磁頻譜管理.
孫有銘: 男,1988年生,博士生,研究方向為異構(gòu)無線網(wǎng)絡(luò)、超密集組網(wǎng)、資源分配、強化學習.
孫豐剛: 男,1982年生,博士生,講師,研究方向為無線通信傳輸技術(shù)、陣列信號處理.
Resource Allocation for Heterogeneous Wireless Networks: A Robust Layered Game Learning Solutions
SHAO Hongxiang①④ZHAO Hangsheng②SUN Youming③SUN Fenggang①
①(,,210007,);②(,210007,);③(,,450000,);④(,471023,)
This paper investigates a resource allocation scheme in heterogeneous wireless small cell networks with imperfect Channel State Information (CSI). In this work, the math expression for the stochastic dynamic uncertainty in CSI is proposed for model analysis and the robust Stackelberg game model with various interference power constraints is established firstly. Then, the Stackelberg game Equilibrium (SE) is obtained and analyzed. Lastly, an improved hierarchical Q-learning algorithm is also given to search the Stackelberg equilibrium strategies of macro-cell base station and small-cell base station. Both theoretical analysis and simulation results verify the proposed scheme can effectively restrain declining revenue due to incomplete CSI and the proposed algorithms can improves the convergence rate, especially applicable to the fast varying communication environment.
Heterogeneous wireless networks; Stackelberg game; Incomplete Channel State Information (CSI); Robust decision; Hierarchical Q-learning; Discrete strategy
TN929.5
A
1009-5896(2017)01-0038-07
10.11999/JEIT160285
2016-03-28;改回日期:2016-10-09;
2016-11-16
邵鴻翔 shaohongxiang2003@163.com
國家自然科學基金(61471395, 61401508),江蘇省自然科學基金(BK20161125)
The National Natural Science Foundation of China (61471395, 61401508), The Natural Science Foundation of Jiangsu Province, China (BK20161125)