邢旭東 高暉 顧軍
摘要:提出一個基于機器學習的無線網(wǎng)絡流量預測及流量增長潛力評估方案。該方案分析蜂窩網(wǎng)絡中的實際業(yè)務流量數(shù)據(jù)在時間維度上的變化規(guī)律,并借助高斯過程的機器學習方法來預測業(yè)務變化趨勢,從短期角度為運營商的網(wǎng)絡優(yōu)化部署提供指導。基于極限梯度提升(XGBoost)機器學習框架,建立網(wǎng)絡中其他運營數(shù)據(jù)與業(yè)務流量的多維映射關系,應用改進的量子粒子群算法進一步尋找蜂窩小區(qū)所能承載的流量上限,從長期角度為網(wǎng)絡優(yōu)化部署提供指導,提升網(wǎng)絡流量水平、釋放流量增長潛力。
關鍵詞:機器學習;移動網(wǎng)絡數(shù)據(jù)分析;流量預測;流量增長潛力評估
Abstract: A wireless network traffic prediction and traffic growth potential evaluation scheme based on machine learning is proposed. Based on the actual traffic data in the cellular network, this scheme analyzes the change rule in the time dimension and uses the machine learning method of Gaussian process to predict the trend of traffic, which provides guidance for the network optimization deployment of operators in the short term. Based on the eXtreme Gradient Boosting (XGBoost) machine learning framework, the multi-dimensional mapping relationship between other operation data and traffic in the network is established, and the revised quantum particle swarm optimization algorithm is applied to further find the upper limit of traffic that the cellular cell can carry, so as to provide guidance for network optimization deployment from a long-term perspective, improve the network traffic level, and release the traffic growth potential.
Keywords: machine learning; mobile network data analysis; traffic prediction; traffic growth potential evaluation
隨著無線設備數(shù)量的飛速增長,移動用戶對更高性能無線服務的需求正在逐年上升。在這樣的背景下,5G應運而生。更密集的組網(wǎng)、更快的速率、更低的時延和更可靠的移動性保障是5G的特點[1]。隨著5G商業(yè)化進程的逐步推進,物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等領域?qū)⒊尸F(xiàn)裂變式發(fā)展態(tài)勢,逐步形成5G產(chǎn)業(yè)生態(tài),為行業(yè)升級提供強勁動力。
近年來,在無線網(wǎng)絡流量預測和流量增長潛力挖掘等領域中,基于人工智能和機器學習等方法的研究引起了學術界和產(chǎn)業(yè)界的極大關注[2]。無線網(wǎng)絡流量預測方法是指,將網(wǎng)絡流量隨時間的變化視作一個時間序列,根據(jù)過往的流量變化規(guī)律來預測未來的變化趨勢,并將預測流量與當前流量之間的差異作為流量增長潛力的量化結(jié)果[3-4]。典型的時間序列預測方法包括差分整合移動平均自回歸模型(ARIMA)[5]、季節(jié)性ARIMA[6]等。在對規(guī)律不明顯、構(gòu)成成分復雜的時間序列進行預測時,傳統(tǒng)方法的預測性能已經(jīng)明顯下降。因此,人們需要尋找新的方法來應對復雜的流量模式。得益于硬件計算能力的極大提升,當前業(yè)界也在嘗試使用深度學習模型來預測網(wǎng)絡流量。例如,文獻[7]首先對流量數(shù)據(jù)做柵格化預處理,然后以柵格為單元,利用堆疊自編碼器(SAE)提取柵格流量在不同歷史時刻的特征,并利用這些特征訓練長短期記憶(LSTM)網(wǎng)絡,最終實現(xiàn)對柵格單元的網(wǎng)絡流量預測。然而,自定義柵格忽視了單個蜂窩小區(qū)的流量浮動,這導致深度學習模型容易出現(xiàn)過擬合現(xiàn)象。鑒于此,本文提出一種基于機器學習的可解釋性強、泛化性能好的流量預測方法,從短期角度指導網(wǎng)絡優(yōu)化部署。
長期來看,對網(wǎng)絡流量增長潛力的評估能夠有效解決網(wǎng)絡的優(yōu)化部署問題。蜂窩網(wǎng)絡流量的波動意味著小區(qū)的負載也會隨之波動。如果小區(qū)的歷史指標經(jīng)常處于高負載狀態(tài),就說明其覆蓋范圍內(nèi)的數(shù)據(jù)傳輸需求高于網(wǎng)絡本身的負載水平。這意味著該小區(qū)具有較大的運營收益潛力。為此,運營商通常會實施網(wǎng)絡擴容,在滿足用戶需求的同時擴大收益。反之,如果網(wǎng)絡的業(yè)務量沒有達到相對較高的收益水平,增長受到抑制,則需要收集多種指標數(shù)據(jù),分析具體原因,并制定相應的優(yōu)化策略,以提升網(wǎng)絡流量,釋放流量增長潛力[8]。因此,在充分挖掘大量蜂窩網(wǎng)絡業(yè)務數(shù)據(jù)的基礎上,本文設計一種基于機器學習的獲取無線網(wǎng)絡高價值狀態(tài)的通用方法,從長期角度釋放網(wǎng)絡流量增長潛力。同時,本文以現(xiàn)網(wǎng)中的實際業(yè)務數(shù)據(jù)為基礎,從小區(qū)流量的短期變化趨勢與長期增長潛力兩個方面考慮,圍繞蜂窩網(wǎng)絡流量指標來設計解決方案。在小區(qū)流量短期預測方面,本文提出基于高斯過程(GP)的流量預測方案。基于高斯過程對物理資源塊(PRB)利用率預測的研究[9],本文進一步綜合考慮分組數(shù)據(jù)匯聚協(xié)議(PDCP)服務數(shù)據(jù)單元(SDU)下行流量、PRB利用率等指標,將各指標的歷史時刻流量作為輸入,采用高斯過程核函數(shù)分別對其短期、長期變化趨勢等因素進行擬合建模,并將模型預測的流量變化趨勢作為輸出。在小區(qū)流量長期增長潛力評估方面,本文首先分析其他網(wǎng)絡指標對流量指標的影響情況,即建立其他指標與流量指標之間的映射關系;其次,調(diào)整其他指標的取值使流量指標最大化,即基于該映射關系挖掘蜂窩網(wǎng)絡的高價值狀態(tài)。
1流量預測及增長潛力評估的問題描述
本節(jié)分別對流量預測和流量增長潛力評估兩部分內(nèi)容進行數(shù)學描述,首先將其抽象為數(shù)學問題,然后分析相應的難點并提出解決思路。
1.1基于高斯過程的業(yè)務流量預測
1.2基于XGBoost方法的多元流量增長潛力評估
實現(xiàn)流量增長潛力評估需要應對兩個主要挑戰(zhàn):(1)建立網(wǎng)絡流量指標與其他業(yè)務指標之間的多元映射關系,以量化不同指標對網(wǎng)絡流量的影響;(2)基于多元映射關系來挖掘高價值狀態(tài)信息,即當多元映射關系返回的流量達到最大時,需要明確其他指標的取值狀態(tài)。
在給定機器學習模型F(·)的前提下,挖掘網(wǎng)絡高價值狀態(tài)相當于解決優(yōu)化問題maxF(x)。其中,x表示一組包含各個網(wǎng)絡指標取值的特征向量。
2流量預測及增長潛力評估方案
2.1基于高斯過程的流量預測
高斯回歸過程作為后深度學習時代的統(tǒng)計建模工具,天然地擁有數(shù)據(jù)驅(qū)動和清晰的模型解釋性等特點。因此,本文基于高斯回歸過程設計一種無線流量預測方法。
3基于網(wǎng)管數(shù)據(jù)的實驗
本節(jié)采用的數(shù)據(jù)集由某運營商在中國的真實數(shù)據(jù)組成。采樣時間跨度為2018年10月15日—2019年1月15日,采樣粒度為24 h/d。每個小區(qū)共有2 232條記錄,每條記錄均包含平均激活用戶設備(UE)數(shù)、PDCP層平均速率、平均信道質(zhì)量指示(CQI)、下行PDCP SDU數(shù)據(jù)量等指標。我們從中隨機抽取80%的數(shù)據(jù)作為訓練數(shù)據(jù),并將剩余20%的數(shù)據(jù)作為測試數(shù)據(jù)。結(jié)合相關網(wǎng)絡運營方面的專家經(jīng)驗,本研究從現(xiàn)有數(shù)據(jù)集包含的指標中遴選網(wǎng)絡下行流量指標和其他6種不同業(yè)務行為的指標,即D = 6。這些指標分別是平均激活UE數(shù)、物理下行共享信道(PDSCH)利用率、下行PDCP層平均速率、平均CQI、下行64正交振幅調(diào)制(QAM)占比、下行PRB滿負荷時間和下行PDCP SDU數(shù)據(jù)量。
3.1基于高斯過程的流量預測仿真
實驗中,我們采用MATLAB中的基于高斯過程的機器學習包(GPML)進行建模,利用高斯過程對PRB利用率和下行PDCP SDU流量進行預測。本實驗分別利用單小區(qū)的300 h歷史時刻的PRB利用率和下行PDCP SDU流量數(shù)據(jù),來預測下一個小時的數(shù)據(jù)。預測結(jié)果基本符合真實數(shù)據(jù)的變化趨勢。該模型對突變比較明顯的數(shù)據(jù)缺乏一定的適應性,但對變化平穩(wěn)的數(shù)據(jù)具有很高的預測精度。從平均絕對百分比誤差(MAPE)來看,基于高斯過程建立的模型對PDCP SDU流量數(shù)據(jù)和PRB利用率的預測性能分別為0.3551和0.2068,而基于ARIMA建立的模型在這兩個指標上的表現(xiàn)分別是0.4015和0.3081。由此可見,高斯過程預測模型的表現(xiàn)要優(yōu)于ARIMA模型。
3.2多元流量增長潛力建模
3.3最優(yōu)運營狀態(tài)挖掘
充分擬合數(shù)據(jù)的機器學習模型能夠量化不同網(wǎng)絡業(yè)務指標對網(wǎng)絡下行流量的影響。本文中,我們測試多種群體智能算法在多元回歸模型上的搜索性能,使用RQPSO算法從基于XGBoost量化的模型中挖掘最優(yōu)網(wǎng)絡運營狀態(tài),并將基本粒子群算法(PSO)和QPSO算法作為對照。3種算法各迭代60次,它們的收斂過程如圖2所示。
由圖2可知,PSO算法在早期的收斂速度較快,但在10次迭代之后,該算法的搜索基本陷入停滯狀態(tài)。QPSO算法的收斂速度慢于RQPSO算法,在同樣的迭代次數(shù)內(nèi)沒有獲得相對較優(yōu)的優(yōu)化結(jié)果。RQPSO算法在前30次的迭代中搜索速度較快,在迭代末期逐步收斂在28 GB左右。因此,RQPSO算法的優(yōu)化結(jié)果在3種算法中是最優(yōu)的。與QPSO算法相比,帶有混合量子搜索行為的RQPSO算法能夠充分發(fā)掘流量評估模型潛力,得到最高的網(wǎng)絡流量潛力值和與之對應的高價值運營狀態(tài)。在高價值運營狀態(tài)下的各個網(wǎng)絡指標的取值如圖3所示。
3.4網(wǎng)絡優(yōu)化指導
以基于機器學習方法得到的蜂窩網(wǎng)絡運營高流量價值(流量潛力上限狀態(tài))為參考,我們列舉一些評估流量增長潛力的實例。圖4中的兩張子圖分別展示不同蜂窩小區(qū)在某單位時段內(nèi)的各網(wǎng)絡指標的真實統(tǒng)計值與機器學習方法得到的高價值狀態(tài)的對比。其中,藍色雷達圖表示由機器學習方法得到的蜂窩網(wǎng)絡運營高流量價值狀態(tài),紅色雷達圖表示實際的網(wǎng)絡運營數(shù)據(jù)值。高價值狀態(tài)的各項指標依次是:流量潛力上限為27.94 GB,平均激活用戶數(shù)為42,PDSCH資源利用率為96%,下行PDCP層平均速率為72 Mbit/s,平均CQI為14,下行64QAM調(diào)制占比為81%,下行PRB滿負荷時間為2 391 s。
在圖4(a)中,網(wǎng)絡實際流量為16.15 GB,比上限流量少了約12 GB。用戶數(shù)、PDSCH利用率和PRB滿負荷時間基本相同。平均CQI為11,比最優(yōu)狀態(tài)低3個等級。下行64QAM調(diào)制占比僅為28%,與最優(yōu)狀態(tài)相比,差距較大。下行速率為38 Mbit/s,差距也較大??偟膩碚f,流量增長潛力受到抑制的原因在于當前蜂窩網(wǎng)絡的整體覆蓋能力偏弱。因此,我們應當分析造成弱覆蓋的具體原因,并進行相應優(yōu)化,以釋放流量增長潛力。
在圖4(b)中,網(wǎng)絡實際流量約15.02 GB(比最優(yōu)狀態(tài)的流量少了約13 GB),平均CQI為14,下行64QAM調(diào)制占比為85%,這說明覆蓋質(zhì)量良好。用戶數(shù)、PDSCH利用率和下行PRB滿負荷時間等其他指標,與最優(yōu)狀態(tài)相比,差距較大。總的來說,流量差距較大的主要原因在于該小區(qū)覆蓋范圍內(nèi)的激活用戶數(shù)量較少。如果網(wǎng)絡長時間處于這種狀態(tài),就需要運營商加大業(yè)務推送力度,增加新用戶來提升流量,從而釋放流量增長潛力。
4結(jié)束語
本文提出一個基于機器學習的無線網(wǎng)絡流量預測和流量潛力評估方案。與傳統(tǒng)方法相比,高斯過程回歸的無線流量預測方法能夠顯著提高預測精度,從短期角度指導網(wǎng)絡優(yōu)化部署。同時,流量增長潛力評估方案可以量化其他指標與流量的關系,構(gòu)建多維映射模型。本文提出的RQPSO算法能夠?qū)Χ嗑S映射模型進行最大化求解,從長期角度指導網(wǎng)絡優(yōu)化部署,更好地為運營商提供網(wǎng)絡優(yōu)化量化指導,從而提高運營商的經(jīng)濟效益。
致謝
本研究得到中興通訊產(chǎn)學研合作基金的資助。感謝項目負責人北京郵電大學許文俊教授。北京郵電大學項目組團隊中的童偉強、林元杰、蒲俊林、鄭遠、黃春雷、胡卓爾等對本文的研究工作做出大量貢獻,在此謹致謝意。
參考文獻
[1] IMT-2020 (5G)推進組. 5G愿景與需求白皮書[EB/OL]. (2014-05-28) [2021-01-20]. http:// www.imt2020.org.cn/zh/documents/1
[2]呂惠.中國電信發(fā)布人工智能發(fā)展白皮書[J].計算機與網(wǎng)絡, 2019, (13): 15
[3] LI R, ZHAO Z, ZHOU X, et al. The prediction analysis of cellular radio access network traffic: from entropy theory to networking practice [J]. IEEE communications magazine, 2014, 52(6): 234-240. DOI: 10.1109/MCOM.2014.6829969
[4] YANG S, KUIPERS F A. Traffic uncertainty models in network planning [J]. IEEE communications magazine, 2014, 52(2): 172-177. DOI: 10.1109/MCOM.2014.6736759
[5] ZHANG M, FU H, LI Y, et al. Understanding urban dynamics from massive mobile traffic data[J]. IEEE transactions on big data, 2017, 5(2): 266-278. DOI: 10.1109/TBDATA.2017.2778721
[6] SHU Y, YU M, YANG O, et al. Wireless traffic modeling and prediction using seasonal ARIMA models [J]. IEICE transactions on communications, 2005, 88(10): 3992-3999
[7] WANG J, TANG J, XU Z, et al. Spatiotemporal modeling and prediction in cellular networks: a big data enabled deep learning approach[C]//IEEE INFOCOM 2017-IEEE Conference on Computer Communications. Atlanta, GA, USA: IEEE, 2017: 1-9. DOI: 10.1093/ietcom/ e88-b.10.3992
[8]李一,楊雨蒼,李菲,等.基于用戶感知的FDD LTE網(wǎng)絡擴容方法研究[J].郵電設計技術, 2018, (3): 54-58. DOI: 10.12045/j.issn.1007-3043.2018.03.012
[9] RASMUSSEN C E. Gaussian processes in machine learning [C]//Summer School on Machine Learning. Berlin, Heidelberg, Germany: Springer, 2003: 63-71
[10] CHEN T, GUESTRIN C. Xgboost: a scalable tree boosting system [C]//The 22nd ACM Sigkdd International Conference on Knowledge Discovery and Data Mining. San Francisco, CA, USA: ACM, 2016: 785-794
[11] SUN J, FENG B, XU W. Particle swarm optimization with particles having quantum behavior [C]//IEEE 2004 Congress on Evolutionary Computation. Portland, OR, USA: IEEE, 2004, 1: 325-331
作者簡介
邢旭東,北京郵電大學可信分布式計算與服務教育部重點實驗室在讀碩士研究生;研究方向為機器學習、深度學習算法在無線網(wǎng)絡大數(shù)據(jù)分析中的應用。
高暉,北京郵電大學信息與通信工程學院副教授;主要從事5 G /B 5 G物理層新理論及關鍵技術、無線大數(shù)據(jù)及人工智能等方面的研究;主持并參與多個國家自然科學基金、國家重點研發(fā)計劃等項目;發(fā)表論文1 6 0余篇,申請專利2 0余項。
顧軍,中興通訊股份有限公司高級方案架構(gòu)師;主要從事4 G /5 G無線組網(wǎng)方案及性能方面的研究工作;發(fā)表論文5篇,申請專利2 0余項。