楊 飛王海超、解放軍理工大學(xué)通信工程學(xué)院學(xué)員大隊(duì)一營(yíng)一連 、解放軍理工大學(xué)通信工程學(xué)院研二隊(duì) 南京 0007
?
5G微蜂窩網(wǎng)絡(luò)中基于分布式學(xué)習(xí)的時(shí)頻資源聯(lián)合調(diào)度算法
楊 飛1王海超2
1、解放軍理工大學(xué)通信工程學(xué)院學(xué)員大隊(duì)一營(yíng)一連 2、解放軍理工大學(xué)通信工程學(xué)院研二隊(duì) 南京 210007
【摘要】本文研究了微蜂窩網(wǎng)絡(luò)中上行鏈路通信場(chǎng)景下移動(dòng)用戶的干擾管理問(wèn)題,不同于現(xiàn)有大量基于信道調(diào)度和時(shí)隙調(diào)度的干擾避免方案,本文中每個(gè)移動(dòng)用戶可以自主選擇接入的時(shí)頻資源塊,并根據(jù)反饋的干擾情況學(xué)習(xí)并動(dòng)態(tài)調(diào)整策略;為了刻畫用戶之間的相互作用和影響,將該問(wèn)題建模為一個(gè)非合作博弈,并證明該博弈模型為精確勢(shì)能博弈,至少存在一個(gè)純策略納什均衡點(diǎn),最優(yōu)的純策略納什均衡點(diǎn)對(duì)應(yīng)到全網(wǎng)干擾水平最小。最后,設(shè)計(jì)了一種基于異構(gòu)獨(dú)立修正算法的分布式學(xué)習(xí)算法。仿真分析表明,所提出的分布式學(xué)習(xí)算法可以有效地收斂到干擾最小化博弈的納什均衡,相比于現(xiàn)有的干擾管理方案性能更優(yōu)。
【關(guān)鍵詞】干擾管理;時(shí)頻資源調(diào)度;博弈論;分布式學(xué)習(xí)
無(wú)線數(shù)據(jù)服務(wù)的需求成倍增加迫使移動(dòng)運(yùn)營(yíng)商尋求新的方法來(lái)擴(kuò)大覆蓋,提高網(wǎng)絡(luò)容量。微蜂窩技術(shù)被認(rèn)為是滿足用戶迫切需求的最有效的手段之一。微蜂窩技術(shù)具有覆蓋面小、傳輸能量低和安裝方便的特點(diǎn),主要用于提高網(wǎng)絡(luò)容量或覆蓋率。但是隨著微蜂窩的超密集部署,現(xiàn)有的網(wǎng)絡(luò)中的干擾情況越來(lái)越復(fù)雜。例如在頻譜共享模式下的微蜂窩網(wǎng)絡(luò)中的同層干擾問(wèn)題愈加凸顯,導(dǎo)致網(wǎng)絡(luò)吞吐性能的惡化。因此,有效地干擾管理對(duì)于微蜂窩網(wǎng)絡(luò)而言十分重要。
現(xiàn)有的干擾管理研究主要分為集中式和分布式干擾管理。集中式的干擾管理方法通常需要一個(gè)集中控制器來(lái)搜集全網(wǎng)的信息進(jìn)行資源的優(yōu)化分配,例如頻率、時(shí)隙和功率的分配。但是由于在超密集的微蜂窩網(wǎng)絡(luò)中,并非所有的微基站都由運(yùn)營(yíng)商部署,存在用戶或者企業(yè)部署和管理的微基站,出于通信安全以及隱私考慮,全網(wǎng)信息的獲取通常難以實(shí)現(xiàn)。其次,由于無(wú)線環(huán)境的動(dòng)態(tài)變化,集中式優(yōu)化決策方案的時(shí)效性較差,性能并不穩(wěn)健。即使能夠獲取大規(guī)模微基站的即時(shí)優(yōu)化所需信息,全網(wǎng)產(chǎn)生的大量回程鏈路的通信開(kāi)銷以及通信延遲都不能忽略。另一方面,分布式的資源分配方案因其較低的復(fù)雜度以及靈活穩(wěn)健性引起了學(xué)術(shù)界的廣泛關(guān)注。但目前現(xiàn)有的分布式方案中大量工作研究的是動(dòng)態(tài)信道接入以及分布式時(shí)隙接入優(yōu)化。
不同于現(xiàn)有大量基于信道調(diào)度和時(shí)隙調(diào)度的干擾避免方案,本文中每個(gè)移動(dòng)用戶可以自主選擇接入的時(shí)頻資源塊,并根據(jù)反饋的干擾情況學(xué)習(xí)并動(dòng)態(tài)調(diào)整策略。本文的主要貢獻(xiàn)如下:
(一)提出了一種分布式的時(shí)頻資源調(diào)度方法,與傳統(tǒng)的主要集中在頻率資源或時(shí)間資源的干擾管理方式不同,本文提出的干擾管理方式研究的是時(shí)頻資源聯(lián)合分配,即相鄰用戶在相同時(shí)隙占用不同的信道或在不同的時(shí)隙內(nèi)占用相同信道以避免干擾。
(二)提出聯(lián)合頻率和時(shí)隙資源塊接入的干擾最小化博弈,證明了它是一個(gè)精確勢(shì)能博弈,且至少存在一個(gè)純策略納什均衡點(diǎn),對(duì)應(yīng)整個(gè)網(wǎng)絡(luò)的最小干擾水平。
(三)提出了允許所有用戶同時(shí)更新選擇的基于分布式的聯(lián)合時(shí)頻資源調(diào)度的學(xué)習(xí)算法。該學(xué)習(xí)算法基于對(duì)獨(dú)立修正算法(independent revision process (IRP))的擴(kuò)展,允許所有用戶獨(dú)立操作且沒(méi)有任何協(xié)調(diào)機(jī)制。
如圖1所示,假設(shè)微蜂窩用戶的位置是隨機(jī)分布的,在上行鏈路通信中,當(dāng)兩個(gè)用戶的微基站服務(wù)同時(shí)在同一信道上同時(shí)傳輸時(shí),會(huì)互相干擾。由于用戶的傳輸能量有限,因此其相應(yīng)的干擾距離是有限的。上行傳輸中,對(duì)于基站側(cè)而言,有兩種類型的干擾:來(lái)自相鄰基站用戶的強(qiáng)干擾和來(lái)自非相鄰用戶的弱干擾,通常情況下只考慮來(lái)自相鄰用戶的強(qiáng)干擾,可以通過(guò)干擾圖(沖突圖)來(lái)刻畫相鄰小區(qū)之間的干擾情況,干擾圖中可以將對(duì)應(yīng)的微蜂窩基站和用戶(后文中簡(jiǎn)稱為微蜂窩用戶對(duì))視為干擾圖中的一個(gè)頂點(diǎn),相鄰的微蜂窩用戶對(duì)之間存在干擾關(guān)系時(shí),存在一條邊連接對(duì)應(yīng)的頂點(diǎn)。
圖1 系統(tǒng)模型
將可用的頻譜資L源=B{劃1,2分,3,為...,L}個(gè)子信道,信道集合為L(zhǎng)={1,2,3,...,L}。一幀由選擇時(shí)段和傳輸時(shí)段組成,用戶在選擇時(shí)段選擇他們的信道和時(shí)隙,然后在傳輸時(shí)段傳輸數(shù)據(jù)。可用的傳T輸時(shí)=段{1又,2,分3,為...,T }個(gè)時(shí)隙,時(shí)隙集合可表示T ={1,2,3,...,T}。用S={1,2,3,...,S} 表示微蜂窩基站的集合,并假設(shè)每個(gè)基站只服務(wù)一個(gè)用戶,令N={1,2,3,...,N}表示對(duì)應(yīng)用戶的集合。
假定用戶n的傳輸功率設(shè)置為pn。用戶在t時(shí)l刻占用的信道l 進(jìn)行上行傳輸,對(duì)應(yīng)的微基站側(cè)所接收到的信干噪比為 :
上式中Jn表示用戶n的鄰居集合,表示相鄰用戶引起的總干擾;gn是從用戶n到微蜂窩基站的信道增益;N0是均值為零、方差為σ2的加性高斯白噪聲。微蜂窩基站和用戶之間的信道增益可以表示為,其d中表示微蜂窩基站和用戶之間的距H離,表示瑞利衰落,m是路徑損耗指數(shù)。定義fn和tn作為用戶n選擇的信道和時(shí)隙,則和表示為:
和
信干噪比(SINR)與函數(shù)Xn(k)和ξn(k)密切相關(guān)。具體說(shuō),在同一時(shí)隙占用相同信道的相鄰用戶的數(shù)量越少,對(duì)應(yīng)基站承受的干擾也將越少。受文獻(xiàn)[7]中碰撞水平的啟發(fā),定義干擾水平如下:
其中
本文的優(yōu)化目標(biāo)是找到能夠使干擾最小化的最佳信道和時(shí)隙組合,讓用戶n選擇相應(yīng)的資源塊,則
上述的優(yōu)化問(wèn)題屬于經(jīng)典圖著色問(wèn)題,可證明其為NP難問(wèn)題,現(xiàn)有的集中式方法大多采用貪婪搜索的方法尋找次優(yōu)解。同時(shí)由于,集中式的資源優(yōu)化方案難以適用于大規(guī)模超密集部署的微蜂窩網(wǎng)絡(luò)場(chǎng)景下。因此,本文尋求通過(guò)分布式優(yōu)化的方案求解上述優(yōu)化問(wèn)題。
由于缺少集中控制器為用戶制定分配的信道和時(shí)隙,每個(gè)用戶需要自主選擇接入的時(shí)隙和頻率資源塊。由于用戶之間的決策行為存在相互影響,本文采用博弈論來(lái)分析用戶決策行為之間的相互影響。本文將這個(gè)問(wèn)題建模為一個(gè)非合作博弈,每個(gè)用戶是一個(gè)博弈參與者。信道和時(shí)隙干擾最小化博弈可以表示為:
式中N = {1,2,..., N}代表博弈用戶的集合 ,An是用戶n的策略集合,Un是用戶n的效用函數(shù)。an∈An標(biāo)示用戶n的一個(gè)動(dòng)作,a-n∈A-n表示除用戶n之外的所有用戶的動(dòng)作集合。由于用戶之間決策行為存在相互影響,即用戶n的效用函數(shù)Un通常表示為Un(an, a?n),在本文中用戶的效用函數(shù)只與相鄰的用戶的策略有關(guān),
故Un(an, a?n)可以進(jìn)一步簡(jiǎn)化為Un(an, aJn)。本文的優(yōu)化目標(biāo)是當(dāng)多個(gè)相鄰用戶在同一時(shí)間選擇同一信道時(shí)的干擾水平最小化。受文獻(xiàn)[7]中的效用函數(shù)的啟發(fā),用戶的效用函數(shù)可以寫成以下表達(dá)式:
信道和時(shí)隙干擾最小化博弈可以定義如下:
定理1:信道和時(shí)隙干擾最小化博弈是一個(gè)精確勢(shì)能博弈,至少有一個(gè)純策略納什均衡點(diǎn),對(duì)應(yīng)整個(gè)網(wǎng)絡(luò)的最低干擾水平。
證明:證明過(guò)程遵循文獻(xiàn)[7]中定理2.2的證明思路,可證明信道和時(shí)隙干擾最小化博弈是一個(gè)精確勢(shì)能博弈,同時(shí),根據(jù)精確勢(shì)能博弈的性質(zhì)可證明納什均衡點(diǎn)的存在性。
上一節(jié)已經(jīng)分析了信道和時(shí)隙干擾最小化博弈至少存在一個(gè)純策略納什均衡點(diǎn)。由于用戶的超密集部署,難以通過(guò)集中式的方法實(shí)現(xiàn)全局優(yōu)化,本文嘗試使用分布式的方法來(lái)解決這個(gè)問(wèn)題。目前研究中已經(jīng)提出一些分布式的學(xué)習(xí)方案進(jìn)行最優(yōu)解的搜索,如空間并發(fā)自適應(yīng)行動(dòng)(C-SAP),無(wú)悔學(xué)習(xí)(NRL)算法等。本節(jié)設(shè)計(jì)了一種基于對(duì)獨(dú)立修正算法(independent revision process(IRP))的擴(kuò)展的學(xué)習(xí)算法,可以使得每個(gè)用戶分布式的學(xué)習(xí)最佳的時(shí)頻資源聯(lián)合調(diào)度策略,該算法利用用戶間的差異提高了收斂速度,可以實(shí)現(xiàn)了最優(yōu)納什均衡的搜索。
表1 基于分布式學(xué)習(xí)的時(shí)頻資源聯(lián)合調(diào)度算法
在步驟4中,用戶通過(guò)不同的概率更新動(dòng)作選擇。如果當(dāng)前的動(dòng)作選擇獲得的回報(bào)較大時(shí),用戶保持當(dāng)前動(dòng)作選擇的概率較大;而當(dāng)現(xiàn)在的動(dòng)作選擇的回報(bào)較低時(shí),用戶更愿意進(jìn)行探測(cè),即更換其他的動(dòng)作。在獨(dú)立修訂算法中,所有用戶以相同的概率δ=exp(?β?m)更新動(dòng)作選擇。較大的學(xué)習(xí)參數(shù)β和m導(dǎo)致較少的用戶更新選擇,收斂速度慢;而較小的學(xué)習(xí)參數(shù)允許大量相鄰用戶同時(shí)更新選擇,算法可能無(wú)法收斂到納什均衡點(diǎn),本文中不同用戶的異構(gòu)學(xué)習(xí)參數(shù)可以解決這個(gè)問(wèn)題。
考慮一個(gè)蜂窩網(wǎng)絡(luò)中一個(gè)150m×30m的熱點(diǎn)區(qū)域內(nèi)的上行通信傳輸場(chǎng)景。每個(gè)微蜂窩基站服務(wù)一個(gè)最大功率為100mW的用戶。有N個(gè)均勻分布的微蜂窩用戶對(duì),且數(shù)量范圍為10到25對(duì)。如果兩個(gè)蜂窩用戶對(duì)之間的距離小于30m,那么它們是相鄰用戶(不同的閾值會(huì)導(dǎo)致不同的性能,在文獻(xiàn)[6]中已有研究)。噪聲功率是-130dbm,路徑損耗指數(shù)為4。在下述模型中給出的信道和時(shí)隙的數(shù)量是不同的。
(一)學(xué)習(xí)算法的收斂性
假設(shè)在上述的網(wǎng)絡(luò)中有40個(gè)用戶,信道數(shù)和時(shí)隙數(shù)分別為6 和1。圖2通過(guò)與并發(fā)空間自適應(yīng)行動(dòng)和獨(dú)立修正算法的比較顯示了所提算法的收斂性。其中IRP算法和C-SAP算法的學(xué)習(xí)參數(shù)β分別是200和100,在獨(dú)立修正算法中m=k/8。所提的基于分布式學(xué)習(xí)的時(shí)頻資源聯(lián)合調(diào)度算法的參數(shù)設(shè)置為δ1=0.01和δ2=0.5, k為迭代次數(shù)。仿真結(jié)果為100次蒙特卡洛獨(dú)立試驗(yàn)的平均值。
圖2表明所有算法的干擾水平隨迭代次數(shù)的增加而減小,而且基于分布式學(xué)習(xí)的時(shí)頻資源聯(lián)合調(diào)度算法收斂到全局最優(yōu)的速度快于其他兩種學(xué)習(xí)算法,獨(dú)立修正算法和空間并發(fā)自適應(yīng)行動(dòng)的收斂速度相近。仿真發(fā)現(xiàn),由于獨(dú)立修正算法在一次迭代中允許多個(gè)用戶同時(shí)改變選擇導(dǎo)致其收斂到納什均衡的速度低于空間并發(fā)自適應(yīng)行動(dòng)。當(dāng)β→∞時(shí),每個(gè)用戶都做出了最優(yōu)選擇,因此每一次迭代之后干擾水平都會(huì)降低。但對(duì)于獨(dú)立修正算法,所有的用戶都可能會(huì)改變其動(dòng)作選擇,相鄰的用戶可能同時(shí)更新動(dòng)作選擇,干擾水平可能不會(huì)在每次迭代后都減小。此外,在獨(dú)立修正算法中m的大小對(duì)于收斂速度是至關(guān)重要,小的 值意味著用戶更愿意更新選擇,而大的m值意味著保持當(dāng)前選擇的可能性更大。所提出的基于分布式學(xué)習(xí)的時(shí)頻資源聯(lián)合調(diào)度算法考慮到了用戶之間的差異,收斂速度通常快于空間并發(fā)自適應(yīng)行動(dòng)算法,而且與空間并發(fā)自適應(yīng)行動(dòng)相比,基于分布式學(xué)習(xí)的時(shí)頻資源聯(lián)合調(diào)度算法可以在沒(méi)有任何協(xié)調(diào)機(jī)制的情況下實(shí)現(xiàn),這使得它能更靈活地應(yīng)用于未來(lái)的超密集微蜂窩網(wǎng)絡(luò)中。
圖2. 全網(wǎng)干擾水平隨迭代次數(shù)變化曲線
圖3. 不同子信道數(shù)量下平均用戶吞吐量隨用戶數(shù)的變化曲線
(二)吞吐量性能評(píng)估
圖3.不同子信道數(shù)量下平均用戶吞吐量隨用戶數(shù)的變化曲線
如圖3所示,在信道數(shù)為1的條件下,每個(gè)用戶的平均吞吐量隨用戶數(shù)的增加而減小。若將全部頻譜分為兩個(gè)信道,可以使干擾大大減輕,平均吞吐量大幅增加。
本文研究了各種參數(shù)對(duì)系統(tǒng)性能的影響。雖然用戶可以獨(dú)立地選擇信道和時(shí)隙,但并沒(méi)有使得平均吞吐量最大化的所需信道數(shù)和時(shí)隙數(shù)的先驗(yàn)信息。通過(guò)仿真發(fā)現(xiàn),最大化吞吐量的參數(shù)與特定的場(chǎng)景有關(guān),太多的信道和時(shí)隙會(huì)增加算法的復(fù)雜度和額外開(kāi)銷,故不需要設(shè)置太多時(shí)隙來(lái)避免相鄰的強(qiáng)干擾。
圖4反映了兩種不同資源調(diào)度方法下的平均吞吐量隨用戶數(shù)的變化。時(shí)隙數(shù)隨用戶數(shù)的變化已在文獻(xiàn)[3]的方案中表明,設(shè)置。當(dāng)用戶數(shù)量增加時(shí),每個(gè)用戶占用更少的信道和時(shí)隙資源,所以用戶的吞吐量下降。結(jié)果表明,如果將頻譜分為兩個(gè)信道,用戶可以獲得較高的平均吞吐量。此外,所提方案在超密集部署的微蜂窩網(wǎng)絡(luò)中更具優(yōu)勢(shì),較文獻(xiàn)[3]中的方案性能提高了約33%。但在吞吐量能夠滿足用戶最低速率要求的前提下,信道和時(shí)隙不能分得太多。
圖4. 不同調(diào)度方案下平均用戶吞吐量隨用戶數(shù)的變化
本文研究微蜂窩基站和用戶隨機(jī)分布的蜂窩系統(tǒng)中的分布式信道和時(shí)隙聯(lián)合選擇的問(wèn)題。針對(duì)相鄰用戶間用戶決策相互影響的特點(diǎn),將這個(gè)問(wèn)題建模為一個(gè)非合作博弈,證明了這是一個(gè)精確勢(shì)能博弈,且至少存在一個(gè)純策略納什均衡點(diǎn)。為實(shí)現(xiàn)該納什均衡的搜索,提出了一個(gè)允許所有用戶同時(shí)更新選擇的基于分布式學(xué)習(xí)的時(shí)頻資源聯(lián)合調(diào)度算法。仿真表明,所提分布式學(xué)習(xí)算法能夠收斂到干擾最小化博弈的納什均衡,且相比于其他現(xiàn)有的干擾管理方案有更好的性能。
參考文獻(xiàn)
[1]Chandrasekhar V, Andrews J G, Gatherer A. Femtocell networks: a survey[J]. IEEE Communications Magazine, 2008,46(9):59-67.
[2]Zhang H, Wang Y, Ji H. Resource Optimization Based Interference Management for Hybrid Self-Organized Small Cell Network[J]. IEEE Transactions on Vehicular Technology,2015:1-1.
[3]Ahuja K, Xiao Y, Mihaela V D S. Distributed Interference Management Policies for Heterogeneous Small Cell Networks[J]. IEEE Journal on Selected Areas in Communications, 2014, 33(6):1112-1126.
[4]Ramesh Kumar M R, Bhashyam S, Jalihal D. Throughput improvement for cell-edge users using selective cooperation in cellular networks[C]// Ifip International Conference on Wireless and Optical Communications Networks. 2008:1 - 5.
[5]Samarakoon S, Bennis M, Saad W, et al. Backhaul-Aware Interference Management in the Uplink of Wireless Small Cell Networks[J]. IEEE Transactions on Wireless Communications, 2013, 12(11):5813-5825.
[6]Aliu O G, Imran A, Imran M A, et al. A Survey of Self Organisation in Future Cellular Networks[J]. IEEE Communications Surveys & Tutorials, 2013, 15(1):336-361.
[7]Xu Y, Wang J, Wu Q, et al. Opportunistic Spectrum Access in Cognitive Radio Networks: Global Optimization Using Local Interaction Games[J]. IEEE Journal of Selected Topics in Signal Processing, 2012, 6(2):180-194.
[8]Young H P, Young H P. Individual strategy and social structure[J]. Princeton University, 1998.
[9]Neel J O, Reed J H, Gilles R P. Convergence Of Cognitive Radio Networks[C]// Wireless Communications and Networking Conference, 2004. WCNC. 2004 IEEE. 2004:2250 - 2255 Vol.4.
Marden J R, Shamma J S. Revisiting log-linear learning:Asynchrony, completeness and payoff-based implementation[J]. Ga
作者簡(jiǎn)介
楊飛,男,漢族,山東省濱州市,研究生,中國(guó)人民解放軍理工大學(xué)信息與通信工程。