張偉
(中國聯(lián)合網(wǎng)絡通信集團有限公司廣東省分公司,廣東 廣州 510630)
隨著移動通信的快速發(fā)展,用戶對業(yè)務高服務質(zhì)量(QoE,Quality of Experience)需求不斷增長,以軟件定義網(wǎng)絡(SDN)的虛擬化技術與網(wǎng)絡切片技術能支持5G網(wǎng)絡多元服務及業(yè)務模型,并在功能、性能和安全保護方面提供差異化的技術方案。網(wǎng)絡切片作為一種引入網(wǎng)絡資源靈活管理的方法,負責完成物理網(wǎng)絡的虛擬化,按需形成邏輯獨立的虛擬網(wǎng)絡,并負責虛擬資源到物理網(wǎng)絡資源的映射[1]。然而,切片資源分配,也就是基站側(cè)切片資源管理成為了無線資源管理的方向。對于一個網(wǎng)絡切片而言,過多的空閑資源會導致資源浪費以及資源利用率下降,過少的資源又不能滿足用戶業(yè)務QoE 需求,因此,如何將有限的切片資源動態(tài)分配給各個用戶,滿足不同時刻用戶的差異性需求,提高用戶的滿意度是無線資源管理亟待解決的問題。Han 等人[2]基于遺傳算法提出一種新的在線優(yōu)化器,從而形成基于SDN 的動態(tài)網(wǎng)絡切片資源調(diào)度和管理方法以滿足時變特征的用戶業(yè)務需求,實驗表明,該優(yōu)化器能有效地逼近最大長期網(wǎng)絡效用,實現(xiàn)動態(tài)的切片自優(yōu)化策略。Alfoudi 等人[3]提出了一個基于網(wǎng)絡切片的未來5G 系統(tǒng)的邏輯移動性管理架構,該架構中的每一個切片都是通過異構無線接入技術實現(xiàn)用戶無線資源管理。為了更有效實現(xiàn)切片資源的自適應管理,許多學者提出強化學習算法來實現(xiàn)切片資源的自主分配,比如:Sun 等人[4]提出一種基于動態(tài)資源預留和深度強化學習的下一代無線接入網(wǎng)自治虛擬資源切片框架,首先,該框架根據(jù)虛擬網(wǎng)絡的最小資源需求比例,定期將未使用的資源保留給虛擬網(wǎng)絡;然后,基于用戶的平均服務效用質(zhì)量和資源利用率,利用深度強化學習對虛擬網(wǎng)絡的資源量進行自主控制。Li 等人[5]提出一種基于深度強化學習的網(wǎng)絡切片資源管理機制,該機制使資源管理與每個切片的用戶活動保持一致,從而實現(xiàn)切片資源的自主管理。Azimi 等人[6]提出一種用于5G 網(wǎng)絡中RAN 切片的節(jié)能深度強化學習輔助資源分配方法,該方法以深度強化學習(DRL)和深度學習(DL)為學習框架,結合功率和頻譜資源的約束實現(xiàn)無線切片的資源分配。然而,現(xiàn)有網(wǎng)絡切片資源分配方案大多數(shù)不夠靈活,導致無法動態(tài)適應時延較短的業(yè)務需求。除此之外,現(xiàn)有的切片分配方案沒有考慮用戶QoE 需求和用戶調(diào)度優(yōu)先級,僅僅從資源匹配性角度實現(xiàn)網(wǎng)絡切片資源分配。為了解決上述的問題,本文提出一種以用戶QoE 為中心的切片資源分配模型,在用戶QoE 與特定網(wǎng)絡指標之間進行映射的基礎上,結合用戶調(diào)度優(yōu)先級,最大化系統(tǒng)的用戶QoS 需求和吞吐量最大化,實現(xiàn)網(wǎng)絡切片資源分配方案。
強化學習是一種機器學習的方法,智能體通過在環(huán)境中不斷學習修正其選擇的策略從而實現(xiàn)自我改進與優(yōu)化。強化學習的原理如圖1 所示:
圖1 強化學習的原理
圖1 展示了強化學習的過程,強化學習包括幾個變量:智能體、環(huán)境、狀態(tài)、動作。智能體是一個實體,其能夠根據(jù)環(huán)境執(zhí)行某種動作從而獲得獎勵;環(huán)境是指智能體所處于的動態(tài)可變的場景;狀態(tài)是指環(huán)境在某一時刻所處的場景類型;動作是指智能體所采取的行動策略。
強化學習的目標是為了獲得最大化的累積獎勵,智能體為了獲取累積獎勵的最大值,盡量從開始時刻0 到結束時刻T選擇“正確”的動作,以此達到累積獎勵的最大化。累積獎勵可以表示為:
其中γ是衰減因子,是一個常數(shù),用來評估未來獎勵對當前獎勵的影響。
對于所有狀態(tài)的動作集,如果一個策略π*的期望收益大于其他策略的期望收益,那么在后續(xù)多個時刻中均會采用相同的狀態(tài)動作函數(shù)。最優(yōu)策略π*表達式為:
本文的無線虛擬網(wǎng)絡資源分配基于SDN 的架構實現(xiàn)網(wǎng)絡切片資源的分配。該架構包括切片控制器、基站、切片以及用戶設備。每一個時刻,用戶設備會向接收信號強度最大的基站發(fā)送接入請求,基站會根據(jù)用戶請求的業(yè)務類型分配指定的切片。然而,在現(xiàn)實生活中,由于用戶移動性等原因,網(wǎng)絡環(huán)境往往是復雜多變的,因此,基于動態(tài)用戶的需求導致某部分業(yè)務的切片資源出現(xiàn)大量的閑置現(xiàn)象;而另一部分的切片資源則出現(xiàn)不夠的現(xiàn)象。因此,基于靜態(tài)的切片資源分配方案顯然不滿足動態(tài)的用戶業(yè)務需求和吞吐量最大化的要求。為了提高用戶滿意度和系統(tǒng)吞吐量,本文采用強化學習的方法實現(xiàn)整體切片資源比例的動態(tài)調(diào)整。
由于用戶業(yè)務QoE 有固定的需求,本文考慮到現(xiàn)有5G 業(yè)務的需求,將用戶業(yè)務QoE 映射為網(wǎng)絡指標數(shù)據(jù)速率和業(yè)務時延。本文定義t時隙分配變量表示資源分配決策:
那么對應t時隙切片m的吞吐量可以表示為:
根據(jù)用戶吞吐量最大化的目標,考慮功率和用戶優(yōu)先級約束下的切片分配模型為:
本文描述基于強化學習的資源調(diào)度方案,該方案使用基于深度強化學習的動態(tài)資源調(diào)度策略生成資源分配決策。
(1)狀態(tài)
假設整個無線系統(tǒng)在時隙t的狀態(tài)表示為其中,w表示整個無線系統(tǒng)各個切片的帶寬wi組成的向量,Thu表示整個無線系統(tǒng)的吞吐量,e表示各個切片剩余帶寬組成的向量。
(2)動作空間
(3)回報函數(shù)
回報函數(shù)定義以整個無線系統(tǒng)的吞吐量。
其中,α取值在0-1 之間。
(4)下一個狀態(tài)的變動
當前狀態(tài)下動作空間的選擇,得到累積獎勵函數(shù)為:
(5)資源更新
隨著智能體不斷決策,整個系統(tǒng)的切片資源比例一致在發(fā)生變化,各個切片所分配的帶寬不斷更新。
為了驗證本文的算法,本文構建了一個仿真場景,無線資源池覆蓋一個為半徑200 m 的區(qū)域,然后該區(qū)域設置500 個用戶,并根據(jù)需求發(fā)起eMBB、mMTC 和URLLC 服務,考慮到移動用戶的移動性,各區(qū)域的用戶密度是隨機變化的。為了實現(xiàn)無線切片的動態(tài)分配過程,本文設置不同業(yè)務流量模型來設置對應業(yè)務的文件大小和時從而支撐切片的動態(tài)分配,具體數(shù)據(jù)如表1 所示:
表1 業(yè)務流量模型參數(shù)
為了展示本文算法的性能,本文采用切片根據(jù)等比例策略設置和流量比例策略作為對比。等比例策略意味著資源按照預先設好的比例平均分配到不同的切片,每個切片獲得1/3 的切片資源。流量比例策略是指將資源按需求按比例分配到不同的切片上。用戶根據(jù)流量模型隨機生成業(yè)務報文,獲取資源后開始分發(fā)業(yè)務報文。整個無線資源池在不同分配策略下的系統(tǒng)吞吐量如圖2 所示:
圖2 不同算法吞吐量對比
圖2 表明強化學習策略有效地提高了系統(tǒng)吞吐量。等比率和流量比例策略使吞吐量在1~2 Gbps 左右浮動,而強化學習策略在大部分仿真時間內(nèi)將吞吐量提高到2.5 Gbps 以上?;趶娀瘜W習的算法關注切片總的吞吐量與用戶QoE 上。在切片吞吐量方面,幫助控制器更有針對性管理切片的吞吐量,確保整個無線系統(tǒng)能夠按需供給資源。
本文所闡述的公平性,并不是用戶接入到無線系統(tǒng)后所擁有的同等資源,而是根據(jù)用戶業(yè)務不同無線資源系統(tǒng)所獲得的用戶體驗(速率和吞吐量)。由此可知,本文策略比等比率策略的用戶體驗提升15% 左右;比流量比例策略的用戶體驗提升6% 左右。基于強化學習的算法關注切片總的吞吐量與與用戶QoE上,因此,本文的算法能夠為用戶分配更有針對性的切片,因此本文策略公平性最高。不同算法公平性對比如圖3 所示:
圖3 不同算法公平性對比
除此之外,本文還對三種算法的速率以及時延的性能進行對比,分別如圖4 和圖5 所示。
圖4 不同算法系統(tǒng)時延對比
圖5 不同算法用戶平均速率對比
圖4 表明強化學習策略有效地降低了系統(tǒng)業(yè)務時延。等比率和流量比例策略使系統(tǒng)業(yè)務時延在17~23 ms 左右浮動,而強化學習策略在大部分仿真時間內(nèi)將系統(tǒng)業(yè)務時延降低到15 ms 以下。基于強化學習的算法關注切片平均等待時延與用戶業(yè)務的時延約束,結合用戶業(yè)務對時延的需求,幫助控制器更有針對性選擇切片,確保無線系統(tǒng)能夠按需服務用戶。
圖5 表明強化學習策略有效地提高用戶平均速率。等比率和流量比例策略的速率均在400 Mbps 以下。基于強化學習的算法關注用戶業(yè)務速率的約束,結合使系統(tǒng)業(yè)務時延在17~23 ms 左右浮動,而強化學習策略在大部分仿真時間內(nèi)將系統(tǒng)業(yè)務時延降低到15 ms 以下?;趶娀瘜W習的算法關注切片所能提供的平均速率與用戶業(yè)務速率約束,結合用戶業(yè)務需求,選擇滿足用戶業(yè)務速率約束的切片,提高用戶體驗。
為保證用戶的QoE,提升網(wǎng)絡切片資源分配方案靈活性,本文提出了一種基于強化學習的5G 物聯(lián)網(wǎng)無線資源管理技術。此外,本文針對高度動態(tài)的無線切片資源動態(tài)變化的問題,引入了強化學習對無線切片資源進行分配,實現(xiàn)了自適應的網(wǎng)絡切片動態(tài)優(yōu)化和端到端服務的可靠性。仿真結果表明,基于強化學習的切片資源策略一定程度上具有更好的系統(tǒng)吞吐量和公平性。本文提出的無線切片資源分配方法在5G 切片資源分配方面具有一定的參考意義,可提升無線資源利用率。