• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于強化學習的5G無線資源管理方法研究

      2024-01-06 12:50:32張偉
      移動通信 2023年12期
      關鍵詞:資源分配吞吐量切片

      張偉

      (中國聯(lián)合網(wǎng)絡通信集團有限公司廣東省分公司,廣東 廣州 510630)

      0 引言

      隨著移動通信的快速發(fā)展,用戶對業(yè)務高服務質(zhì)量(QoE,Quality of Experience)需求不斷增長,以軟件定義網(wǎng)絡(SDN)的虛擬化技術與網(wǎng)絡切片技術能支持5G網(wǎng)絡多元服務及業(yè)務模型,并在功能、性能和安全保護方面提供差異化的技術方案。網(wǎng)絡切片作為一種引入網(wǎng)絡資源靈活管理的方法,負責完成物理網(wǎng)絡的虛擬化,按需形成邏輯獨立的虛擬網(wǎng)絡,并負責虛擬資源到物理網(wǎng)絡資源的映射[1]。然而,切片資源分配,也就是基站側(cè)切片資源管理成為了無線資源管理的方向。對于一個網(wǎng)絡切片而言,過多的空閑資源會導致資源浪費以及資源利用率下降,過少的資源又不能滿足用戶業(yè)務QoE 需求,因此,如何將有限的切片資源動態(tài)分配給各個用戶,滿足不同時刻用戶的差異性需求,提高用戶的滿意度是無線資源管理亟待解決的問題。Han 等人[2]基于遺傳算法提出一種新的在線優(yōu)化器,從而形成基于SDN 的動態(tài)網(wǎng)絡切片資源調(diào)度和管理方法以滿足時變特征的用戶業(yè)務需求,實驗表明,該優(yōu)化器能有效地逼近最大長期網(wǎng)絡效用,實現(xiàn)動態(tài)的切片自優(yōu)化策略。Alfoudi 等人[3]提出了一個基于網(wǎng)絡切片的未來5G 系統(tǒng)的邏輯移動性管理架構,該架構中的每一個切片都是通過異構無線接入技術實現(xiàn)用戶無線資源管理。為了更有效實現(xiàn)切片資源的自適應管理,許多學者提出強化學習算法來實現(xiàn)切片資源的自主分配,比如:Sun 等人[4]提出一種基于動態(tài)資源預留和深度強化學習的下一代無線接入網(wǎng)自治虛擬資源切片框架,首先,該框架根據(jù)虛擬網(wǎng)絡的最小資源需求比例,定期將未使用的資源保留給虛擬網(wǎng)絡;然后,基于用戶的平均服務效用質(zhì)量和資源利用率,利用深度強化學習對虛擬網(wǎng)絡的資源量進行自主控制。Li 等人[5]提出一種基于深度強化學習的網(wǎng)絡切片資源管理機制,該機制使資源管理與每個切片的用戶活動保持一致,從而實現(xiàn)切片資源的自主管理。Azimi 等人[6]提出一種用于5G 網(wǎng)絡中RAN 切片的節(jié)能深度強化學習輔助資源分配方法,該方法以深度強化學習(DRL)和深度學習(DL)為學習框架,結合功率和頻譜資源的約束實現(xiàn)無線切片的資源分配。然而,現(xiàn)有網(wǎng)絡切片資源分配方案大多數(shù)不夠靈活,導致無法動態(tài)適應時延較短的業(yè)務需求。除此之外,現(xiàn)有的切片分配方案沒有考慮用戶QoE 需求和用戶調(diào)度優(yōu)先級,僅僅從資源匹配性角度實現(xiàn)網(wǎng)絡切片資源分配。為了解決上述的問題,本文提出一種以用戶QoE 為中心的切片資源分配模型,在用戶QoE 與特定網(wǎng)絡指標之間進行映射的基礎上,結合用戶調(diào)度優(yōu)先級,最大化系統(tǒng)的用戶QoS 需求和吞吐量最大化,實現(xiàn)網(wǎng)絡切片資源分配方案。

      1 相關知識

      強化學習是一種機器學習的方法,智能體通過在環(huán)境中不斷學習修正其選擇的策略從而實現(xiàn)自我改進與優(yōu)化。強化學習的原理如圖1 所示:

      圖1 強化學習的原理

      圖1 展示了強化學習的過程,強化學習包括幾個變量:智能體、環(huán)境、狀態(tài)、動作。智能體是一個實體,其能夠根據(jù)環(huán)境執(zhí)行某種動作從而獲得獎勵;環(huán)境是指智能體所處于的動態(tài)可變的場景;狀態(tài)是指環(huán)境在某一時刻所處的場景類型;動作是指智能體所采取的行動策略。

      強化學習的目標是為了獲得最大化的累積獎勵,智能體為了獲取累積獎勵的最大值,盡量從開始時刻0 到結束時刻T選擇“正確”的動作,以此達到累積獎勵的最大化。累積獎勵可以表示為:

      其中γ是衰減因子,是一個常數(shù),用來評估未來獎勵對當前獎勵的影響。

      對于所有狀態(tài)的動作集,如果一個策略π*的期望收益大于其他策略的期望收益,那么在后續(xù)多個時刻中均會采用相同的狀態(tài)動作函數(shù)。最優(yōu)策略π*表達式為:

      2 基于強化學習的5G無線資源管理技術

      2.1 系統(tǒng)模型

      本文的無線虛擬網(wǎng)絡資源分配基于SDN 的架構實現(xiàn)網(wǎng)絡切片資源的分配。該架構包括切片控制器、基站、切片以及用戶設備。每一個時刻,用戶設備會向接收信號強度最大的基站發(fā)送接入請求,基站會根據(jù)用戶請求的業(yè)務類型分配指定的切片。然而,在現(xiàn)實生活中,由于用戶移動性等原因,網(wǎng)絡環(huán)境往往是復雜多變的,因此,基于動態(tài)用戶的需求導致某部分業(yè)務的切片資源出現(xiàn)大量的閑置現(xiàn)象;而另一部分的切片資源則出現(xiàn)不夠的現(xiàn)象。因此,基于靜態(tài)的切片資源分配方案顯然不滿足動態(tài)的用戶業(yè)務需求和吞吐量最大化的要求。為了提高用戶滿意度和系統(tǒng)吞吐量,本文采用強化學習的方法實現(xiàn)整體切片資源比例的動態(tài)調(diào)整。

      2.2 用戶調(diào)度優(yōu)先級

      2.3 QoE與網(wǎng)絡指標之間映射模型

      由于用戶業(yè)務QoE 有固定的需求,本文考慮到現(xiàn)有5G 業(yè)務的需求,將用戶業(yè)務QoE 映射為網(wǎng)絡指標數(shù)據(jù)速率和業(yè)務時延。本文定義t時隙分配變量表示資源分配決策:

      那么對應t時隙切片m的吞吐量可以表示為:

      2.4 切片資源分配模型

      根據(jù)用戶吞吐量最大化的目標,考慮功率和用戶優(yōu)先級約束下的切片分配模型為:

      2.5 基于強化學習的切片資源動態(tài)分配

      本文描述基于強化學習的資源調(diào)度方案,該方案使用基于深度強化學習的動態(tài)資源調(diào)度策略生成資源分配決策。

      (1)狀態(tài)

      假設整個無線系統(tǒng)在時隙t的狀態(tài)表示為其中,w表示整個無線系統(tǒng)各個切片的帶寬wi組成的向量,Thu表示整個無線系統(tǒng)的吞吐量,e表示各個切片剩余帶寬組成的向量。

      (2)動作空間

      (3)回報函數(shù)

      回報函數(shù)定義以整個無線系統(tǒng)的吞吐量。

      其中,α取值在0-1 之間。

      (4)下一個狀態(tài)的變動

      當前狀態(tài)下動作空間的選擇,得到累積獎勵函數(shù)為:

      (5)資源更新

      隨著智能體不斷決策,整個系統(tǒng)的切片資源比例一致在發(fā)生變化,各個切片所分配的帶寬不斷更新。

      3 實驗分析

      為了驗證本文的算法,本文構建了一個仿真場景,無線資源池覆蓋一個為半徑200 m 的區(qū)域,然后該區(qū)域設置500 個用戶,并根據(jù)需求發(fā)起eMBB、mMTC 和URLLC 服務,考慮到移動用戶的移動性,各區(qū)域的用戶密度是隨機變化的。為了實現(xiàn)無線切片的動態(tài)分配過程,本文設置不同業(yè)務流量模型來設置對應業(yè)務的文件大小和時從而支撐切片的動態(tài)分配,具體數(shù)據(jù)如表1 所示:

      表1 業(yè)務流量模型參數(shù)

      為了展示本文算法的性能,本文采用切片根據(jù)等比例策略設置和流量比例策略作為對比。等比例策略意味著資源按照預先設好的比例平均分配到不同的切片,每個切片獲得1/3 的切片資源。流量比例策略是指將資源按需求按比例分配到不同的切片上。用戶根據(jù)流量模型隨機生成業(yè)務報文,獲取資源后開始分發(fā)業(yè)務報文。整個無線資源池在不同分配策略下的系統(tǒng)吞吐量如圖2 所示:

      圖2 不同算法吞吐量對比

      圖2 表明強化學習策略有效地提高了系統(tǒng)吞吐量。等比率和流量比例策略使吞吐量在1~2 Gbps 左右浮動,而強化學習策略在大部分仿真時間內(nèi)將吞吐量提高到2.5 Gbps 以上?;趶娀瘜W習的算法關注切片總的吞吐量與用戶QoE 上。在切片吞吐量方面,幫助控制器更有針對性管理切片的吞吐量,確保整個無線系統(tǒng)能夠按需供給資源。

      本文所闡述的公平性,并不是用戶接入到無線系統(tǒng)后所擁有的同等資源,而是根據(jù)用戶業(yè)務不同無線資源系統(tǒng)所獲得的用戶體驗(速率和吞吐量)。由此可知,本文策略比等比率策略的用戶體驗提升15% 左右;比流量比例策略的用戶體驗提升6% 左右。基于強化學習的算法關注切片總的吞吐量與與用戶QoE上,因此,本文的算法能夠為用戶分配更有針對性的切片,因此本文策略公平性最高。不同算法公平性對比如圖3 所示:

      圖3 不同算法公平性對比

      除此之外,本文還對三種算法的速率以及時延的性能進行對比,分別如圖4 和圖5 所示。

      圖4 不同算法系統(tǒng)時延對比

      圖5 不同算法用戶平均速率對比

      圖4 表明強化學習策略有效地降低了系統(tǒng)業(yè)務時延。等比率和流量比例策略使系統(tǒng)業(yè)務時延在17~23 ms 左右浮動,而強化學習策略在大部分仿真時間內(nèi)將系統(tǒng)業(yè)務時延降低到15 ms 以下。基于強化學習的算法關注切片平均等待時延與用戶業(yè)務的時延約束,結合用戶業(yè)務對時延的需求,幫助控制器更有針對性選擇切片,確保無線系統(tǒng)能夠按需服務用戶。

      圖5 表明強化學習策略有效地提高用戶平均速率。等比率和流量比例策略的速率均在400 Mbps 以下。基于強化學習的算法關注用戶業(yè)務速率的約束,結合使系統(tǒng)業(yè)務時延在17~23 ms 左右浮動,而強化學習策略在大部分仿真時間內(nèi)將系統(tǒng)業(yè)務時延降低到15 ms 以下?;趶娀瘜W習的算法關注切片所能提供的平均速率與用戶業(yè)務速率約束,結合用戶業(yè)務需求,選擇滿足用戶業(yè)務速率約束的切片,提高用戶體驗。

      4 結束語

      為保證用戶的QoE,提升網(wǎng)絡切片資源分配方案靈活性,本文提出了一種基于強化學習的5G 物聯(lián)網(wǎng)無線資源管理技術。此外,本文針對高度動態(tài)的無線切片資源動態(tài)變化的問題,引入了強化學習對無線切片資源進行分配,實現(xiàn)了自適應的網(wǎng)絡切片動態(tài)優(yōu)化和端到端服務的可靠性。仿真結果表明,基于強化學習的切片資源策略一定程度上具有更好的系統(tǒng)吞吐量和公平性。本文提出的無線切片資源分配方法在5G 切片資源分配方面具有一定的參考意義,可提升無線資源利用率。

      猜你喜歡
      資源分配吞吐量切片
      新研究揭示新冠疫情對資源分配的影響 精讀
      英語文摘(2020年10期)2020-11-26 08:12:20
      一種基于價格競爭的D2D通信資源分配算法
      測控技術(2018年7期)2018-12-09 08:57:56
      2016年10月長三角地區(qū)主要港口吞吐量
      集裝箱化(2016年11期)2017-03-29 16:15:48
      2016年11月長三角地區(qū)主要港口吞吐量
      集裝箱化(2016年12期)2017-03-20 08:32:27
      基于SDN與NFV的網(wǎng)絡切片架構
      電信科學(2016年11期)2016-11-23 05:07:58
      腎穿刺組織冷凍切片技術的改進方法
      冰凍切片、快速石蠟切片在中樞神經(jīng)系統(tǒng)腫瘤診斷中的應用價值比較
      2014年1月長三角地區(qū)主要港口吞吐量
      集裝箱化(2014年2期)2014-03-15 19:00:33
      OFDMA系統(tǒng)中容量最大化的資源分配算法
      計算機工程(2014年6期)2014-02-28 01:25:32
      上海港11月集裝箱吞吐量同比增長4.25%
      廣東造船(2013年6期)2013-04-29 16:34:55
      长丰县| 祥云县| 花垣县| 定日县| 奉贤区| 石屏县| 房产| 阜南县| 甘德县| 咸丰县| 崇义县| 武宁县| 隆德县| 屯昌县| 墨竹工卡县| 汨罗市| 福建省| 抚宁县| 伊宁县| 凌源市| 湘阴县| 朝阳县| 神农架林区| 平塘县| 宁安市| 同仁县| 彰武县| 抚顺市| 西吉县| 普格县| 荆门市| 贵南县| 静安区| 临洮县| 宁蒗| 平阳县| 桐庐县| 芷江| 皮山县| 扎兰屯市| 清水河县|