陳浩杰, 黃 錦, 左興權(quán), 韓 靜, 張百勝
(1.北京郵電大學(xué) 計(jì)算機(jī)學(xué)院,北京 100876; 2.北京郵電大學(xué) 可信分布式計(jì)算與服務(wù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100876; 3.中興通訊股份有限公司,廣東 深圳 518057)
隨著無(wú)線通信技術(shù)的快速發(fā)展和用戶需求的快速增長(zhǎng),運(yùn)營(yíng)商迫切需要準(zhǔn)確預(yù)測(cè)用戶的無(wú)線網(wǎng)絡(luò)需求變化,據(jù)此提前擴(kuò)容無(wú)線通信基站來(lái)保證服務(wù)質(zhì)量。
無(wú)線網(wǎng)絡(luò)流量直接反映了用戶的無(wú)線網(wǎng)絡(luò)需求,通過(guò)預(yù)測(cè)無(wú)線網(wǎng)絡(luò)流量可預(yù)知用戶需求,為網(wǎng)絡(luò)擴(kuò)容提供決策支持。當(dāng)前研究大多聚焦于流量的短期預(yù)測(cè),例如文獻(xiàn)[1-4]預(yù)測(cè)未來(lái)1~5 d的網(wǎng)絡(luò)流量,用于短期內(nèi)動(dòng)態(tài)調(diào)整基站休眠的節(jié)能策略。文獻(xiàn)[5-8]預(yù)測(cè)未來(lái)若干分鐘或小時(shí)網(wǎng)絡(luò)流量,用于實(shí)時(shí)流量的監(jiān)控和擁塞控制。對(duì)于網(wǎng)絡(luò)擴(kuò)容的決策支持問(wèn)題,較長(zhǎng)時(shí)間(例如1個(gè)月)的流量預(yù)測(cè)才有實(shí)際意義,然而目前缺乏網(wǎng)絡(luò)流量長(zhǎng)期預(yù)測(cè)研究。
此外,對(duì)于新建設(shè)的基站,其歷史流量數(shù)據(jù)有限,如何利用較少的歷史流量數(shù)據(jù)進(jìn)行較長(zhǎng)時(shí)間的流量預(yù)測(cè)是目前面臨的一個(gè)挑戰(zhàn)。
針對(duì)無(wú)線網(wǎng)絡(luò)流量的長(zhǎng)期預(yù)測(cè),本文將寬度&深度學(xué)習(xí)引入到網(wǎng)絡(luò)流量預(yù)測(cè)中,提出一種基于寬度&深度學(xué)習(xí)的基站流量預(yù)測(cè)方法。該方法利用較少的歷史流量數(shù)據(jù)進(jìn)行長(zhǎng)期流量預(yù)測(cè)。首先,利用S-H-ESD(seasonal hybrid extreme studentized deviate test)算法[9]對(duì)流量數(shù)據(jù)進(jìn)行異常檢測(cè)、特殊節(jié)日處理和滑動(dòng)窗口平滑處理,使流量數(shù)據(jù)更加平穩(wěn),提高預(yù)測(cè)準(zhǔn)確度。然后,選取與網(wǎng)絡(luò)流量相關(guān)的RRC(radio resource control)連接數(shù)和PRB(physical resource block)利用率作為寬度&深度模型的寬度部分(線性模型)的輸入;將網(wǎng)絡(luò)流量作為寬度&深度模型的深度部分(神經(jīng)網(wǎng)絡(luò))的輸入;通過(guò)結(jié)合線性模型和神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)網(wǎng)絡(luò)流量。將該方法用于中興通訊股份有限公司提供的某市1 000個(gè)基站小區(qū)的流量預(yù)測(cè),利用6個(gè)月的流量數(shù)據(jù)預(yù)測(cè)未來(lái)1個(gè)月的流量。小區(qū)是為用戶提供無(wú)線通信業(yè)務(wù)的一片區(qū)域,一個(gè)基站對(duì)應(yīng)多個(gè)小區(qū)。實(shí)驗(yàn)結(jié)果表明,該方法具有較高的預(yù)測(cè)準(zhǔn)確度,優(yōu)于季節(jié)性差分自回歸滑動(dòng)平均(seasonal autoregressive integrated moving average,SARIMA)模型、BP神經(jīng)網(wǎng)絡(luò)模型和長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)模型。
已有的網(wǎng)絡(luò)流量預(yù)測(cè)方法針對(duì)特定的基站或小區(qū),利用其流量數(shù)據(jù)建立預(yù)測(cè)模型。這種方式需要為每個(gè)基站小區(qū)建立一個(gè)模型,建模過(guò)程復(fù)雜,通用性不強(qiáng)。本文為所有基站小區(qū)建立一個(gè)預(yù)測(cè)模型,具有較強(qiáng)通用性且易于實(shí)施。
近年來(lái),已有一些無(wú)線網(wǎng)絡(luò)流量預(yù)測(cè)的研究。有學(xué)者將網(wǎng)絡(luò)流量看作時(shí)間序列數(shù)據(jù),利用時(shí)間序列預(yù)測(cè)方法進(jìn)行流量預(yù)測(cè)。Yang等[10]使用長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行流量的單步預(yù)測(cè),用于無(wú)源光網(wǎng)絡(luò)的端口擴(kuò)展和帶寬動(dòng)態(tài)調(diào)整。Liu等[11]提出一種多元多階馬爾可夫轉(zhuǎn)移模型,將三元組(是否為假期、時(shí)間周期、流量大小)定義為一個(gè)狀態(tài),進(jìn)行網(wǎng)絡(luò)流量的短期預(yù)測(cè)。Han等[12]提出一種改進(jìn)的變分模式分解方法,并據(jù)此建立了一種多儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)流量預(yù)測(cè),用于網(wǎng)絡(luò)擁塞預(yù)警和控制。
另外有學(xué)者除了考慮流量數(shù)據(jù),還結(jié)合了其他相關(guān)數(shù)據(jù)進(jìn)行預(yù)測(cè)。蔣品[2]提出兩種方法用于基站流量預(yù)測(cè),一種方法采用聚類算法對(duì)基站聚類,然后對(duì)每類基站訓(xùn)練一個(gè)LSTM網(wǎng)絡(luò)進(jìn)行流量預(yù)測(cè);另一種方法結(jié)合基站的地理位置信息來(lái)預(yù)測(cè)流量,利用一個(gè)基站的同類基站來(lái)共同預(yù)測(cè)該基站的流量。利用28 d的基站流量來(lái)預(yù)測(cè)未來(lái)2 d的流量。Huang等[7]提出一種卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的組合模型,結(jié)合基站地理位置信息對(duì)流量進(jìn)行實(shí)時(shí)預(yù)測(cè),每隔10 min輸出一個(gè)預(yù)測(cè)的流量值。Gui等[8]采用帶有門(mén)控循環(huán)單元的圖卷積網(wǎng)絡(luò),利用過(guò)去48 h的流量預(yù)測(cè)未來(lái)5 min的流量。
綜上所述,已有基站無(wú)線流量預(yù)測(cè)研究大多針對(duì)短期流量預(yù)測(cè),用于無(wú)線資源分配、異常監(jiān)測(cè)、基站休眠等場(chǎng)景。目前缺乏用于指導(dǎo)基站擴(kuò)容的長(zhǎng)期流量預(yù)測(cè)研究。此外,已有研究為每個(gè)基站或每類基站建立一個(gè)預(yù)測(cè)模型,使得模型的建立和訓(xùn)練過(guò)程復(fù)雜,還沒(méi)有針對(duì)所有基站小區(qū)建立統(tǒng)一預(yù)測(cè)模型的研究。
基站流量數(shù)據(jù)受季節(jié)、地理、節(jié)假日等眾多因素影響而具有不平穩(wěn)性。大多時(shí)間序列預(yù)測(cè)模型需要平穩(wěn)數(shù)據(jù),平穩(wěn)流量序列更利于模型擬合。本文利用S-H-ESD算法來(lái)處理異常流量,利用窗口平滑處理節(jié)假日流量,利用滑動(dòng)窗口方法對(duì)數(shù)據(jù)平滑處理。
時(shí)間序列數(shù)據(jù)異常檢測(cè)的常用方法包括:閾值法[13]、Grubbs′ Test[14]、箱線圖法(boxplot)[15]、S-H-ESD算法[9]等。相比其他檢測(cè)算法,S-H-ESD能更充分考慮序列的趨勢(shì)性和季節(jié)性,因此本文采用S-H-ESD算法來(lái)去除異常流量數(shù)據(jù),算法流程如下。
步驟1用STL(seasonal-trend decomposition using loess)算法[16]將流量時(shí)間序列X分解為趨勢(shì)分量Tx、季節(jié)分量Sx、剩余分量Rx。
(1)
令j=1,通過(guò)步驟3~6去除最多k個(gè)異常值。
步驟3計(jì)算剩余分量與中位數(shù)偏離最遠(yuǎn)數(shù)據(jù)的殘差:
(2)
步驟4計(jì)算臨界值:
(3)
式中:n為以天為粒度的流量數(shù)據(jù)的數(shù)量;tp,n-j-1為顯著度為p,自由度為(n-j-1)的t分布的臨界值,(1-p)為置信度,置信度越高則估計(jì)區(qū)間越可靠。
步驟6若j 步驟7用流量序列X的平均值替換所有標(biāo)記異常的數(shù)據(jù)。 利用S-H-ESD算法對(duì)某小區(qū)2017年9月份到2018年3月份期間的流量進(jìn)行異常數(shù)據(jù)處理,如圖1所示。其中,檢測(cè)的異常流量值標(biāo)記為圓點(diǎn)。S-H-ESD算法的顯著度p設(shè)置為0.05。降低p值可檢測(cè)更多異常流量。 圖1 異常流量處理(p=0.05)Figure 1 Processing of anormal traffic (p=0.05) 節(jié)假日期間網(wǎng)絡(luò)流量與平時(shí)不同。一般來(lái)說(shuō),節(jié)假日對(duì)網(wǎng)絡(luò)流量的影響呈現(xiàn)規(guī)律性,但不足一年的流量數(shù)據(jù)難以呈現(xiàn)這種規(guī)律性。因此,本文把節(jié)假日流量作為異常流量處理。 首先,標(biāo)記節(jié)假日期間的數(shù)據(jù)。對(duì)于節(jié)假日期間每天的流量數(shù)據(jù),利用該天的前10 d和后10 d流量的平均值來(lái)代替該天的流量值。假設(shè)流量時(shí)間序列中第i天為節(jié)假日,其流量值xi修正為 (4) 要預(yù)測(cè)的時(shí)間序列越平穩(wěn),模型預(yù)測(cè)效果越好。然而,實(shí)際的時(shí)間序列數(shù)據(jù)大多是不平穩(wěn)的,需要將其變?yōu)槠椒€(wěn)序列。常用的方法包括小波分解(wavelet analysis)[17]和經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition)[18]。 本文采用簡(jiǎn)單的滑動(dòng)窗口方法對(duì)流量數(shù)據(jù)進(jìn)行平滑處理。該方法設(shè)置一個(gè)時(shí)間窗口,用窗口內(nèi)的流量數(shù)據(jù)的平均值代替窗口中間時(shí)間點(diǎn)的流量數(shù)據(jù): (5) 某一小區(qū)流量數(shù)據(jù)經(jīng)過(guò)異常數(shù)據(jù)和節(jié)假日數(shù)據(jù)處理后,平滑前后的流量數(shù)據(jù)如圖2所示。 圖2 數(shù)據(jù)平滑F(xiàn)igure 2 Data smoothing process 2016年,Google提出將寬度&深度模型用于推薦系統(tǒng)[19],并在Tensorflow上提供API供廣大科研和開(kāi)發(fā)人員使用。 寬度&深度模型由于結(jié)合了線性模型的記憶能力和神經(jīng)網(wǎng)絡(luò)的泛化能力而具有很好的預(yù)測(cè)效果,本文利用該模型進(jìn)行流量預(yù)測(cè)。使用該模型的關(guān)鍵是確定寬度和深度部分的輸入。本文的深度部分為多輸入多輸出的神經(jīng)網(wǎng)絡(luò),輸入為經(jīng)過(guò)處理的流量時(shí)間序列數(shù)據(jù),輸出為預(yù)測(cè)的流量;寬度部分的輸入為RRC連接數(shù)和PRB利用率,通過(guò)和寬度部分結(jié)合來(lái)修正神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果。 該模型的寬度部分為一個(gè)泛化線性模型: (6) 式中:Ywide為預(yù)測(cè)值;Xwide=[x1,x2,…,xd]為d維特征向量;Wwide=[w1,w2,…,wd]為模型參數(shù);b為偏置。 深度部分為一個(gè)深度神經(jīng)網(wǎng)絡(luò),包括輸入層、隱藏層、輸出層。深度部分可對(duì)稀疏以及未知的特征組合進(jìn)行低維嵌入,保證模型的泛化和記憶能力。每個(gè)隱藏層可表示為 a(l+1)=f(W(l)a(l)+b(l))。 (7) 式中:l為層數(shù);f(·)為激活函數(shù);a(l)、b(l)和W(l)分別為第l層的輸出、偏置和權(quán)重。 整個(gè)模型可表示為 (8) 式中:X為寬度部分輸入的特征向量;Wwide為寬度部分的權(quán)重向量;a(lf)表示深度部分最后一層激活函數(shù)輸出向量;Wdeep為最后一層激活函數(shù)a(lf)的權(quán)重向量。模型訓(xùn)練階段同時(shí)優(yōu)化寬度部分和深度部分的參數(shù)。 在本文中,模型的寬度部分的輸入為每個(gè)小區(qū)的流量時(shí)間序列數(shù)據(jù)的特征。本文利用所有基站小區(qū)的流量來(lái)建立一個(gè)預(yù)測(cè)模型,需要提取每個(gè)小區(qū)流量的特征,以實(shí)現(xiàn)對(duì)每個(gè)小區(qū)流量的準(zhǔn)確預(yù)測(cè)。在模型訓(xùn)練中,當(dāng)模型的深度部分輸入一個(gè)小區(qū)的流量時(shí),寬度部分輸入該小區(qū)流量的特征。利用模型預(yù)測(cè)也如此。 本文選取基站小區(qū)的RRC連接數(shù)和PRB利用率來(lái)反映流量的大小和變化:RRC連接數(shù)代表當(dāng)前在線的用戶數(shù)量,在線的用戶越多,越可能產(chǎn)生較大流量;PRB利用率代表系統(tǒng)的負(fù)荷,系統(tǒng)的負(fù)荷越大,說(shuō)明用戶的需求越大,越可能產(chǎn)生較大流量。 對(duì)網(wǎng)絡(luò)流量、RRC連接數(shù)、PRB利用率進(jìn)行皮爾遜相關(guān)性分析,結(jié)果見(jiàn)表1。由表1可見(jiàn),PRB利用率和RRC連接數(shù)與流量相關(guān),因此選擇這兩項(xiàng)特征為寬度部分的輸入。 表1 選取指標(biāo)的相關(guān)性分析Table 1 Correlation analysis of selected indicators 基于寬度&深度模型的流量預(yù)測(cè)過(guò)程如圖3所示。寬度&深度模型的深度部分是一個(gè)多輸入多輸出的神經(jīng)網(wǎng)絡(luò),寬度部分是一個(gè)線性模型。在輸出層,將深度部分和寬度部分的輸出進(jìn)行融合,得到寬度&深度模型的輸出。 圖3 基于寬度&深度模型的流量預(yù)測(cè)方法Figure 3 Traffic prediction method based on Wide & Deep model 模型的輸入包括兩部分:寬度部分輸入和深度部分的輸入。流量數(shù)據(jù)、PRB利用率、RRC連接數(shù)等數(shù)據(jù)經(jīng)過(guò)第2節(jié)中的節(jié)假日平滑、異常處理、時(shí)間窗口平滑處理后,再進(jìn)行歸一化處理。然后,將流量數(shù)據(jù)作為深度部分的輸入,將PRB利用率和RRC連接數(shù)作為寬度部分的輸入。 利用連續(xù)90 d的流量來(lái)預(yù)測(cè)未來(lái)31 d的流量。采用一次預(yù)測(cè)31 d流量的方式,即模型的一次輸出為31個(gè)網(wǎng)絡(luò)流量值,分別代表未來(lái)1~31 d的網(wǎng)絡(luò)流量。模型的寬度部分的一次輸入為180個(gè)值,分別為90 d的PRB利用率和90 d的RRC連接數(shù)。需要說(shuō)明的是:RRC連接數(shù)和PRB利用率與深度部分輸入的流量值對(duì)應(yīng),即深度部分輸入為90 d的流量,寬度部分輸入為該90 d相應(yīng)的RRC連接數(shù)和PRB利用率。 訓(xùn)練寬度&深度模型時(shí),采用按天滾動(dòng)的方式劃分訓(xùn)練集。例如:1~121 d的流量、RRC連接數(shù)、PRB利用率為第1組數(shù)據(jù),其中1~90 d的數(shù)據(jù)為輸入,91~121 d的數(shù)據(jù)為輸出;2~122 d的數(shù)據(jù)為第2組數(shù)據(jù);3~123 d的數(shù)據(jù)為第3組數(shù)據(jù),以此類推得到訓(xùn)練數(shù)據(jù)集,用于模型訓(xùn)練。 本文利用所有小區(qū)的流量數(shù)據(jù)訓(xùn)練寬度&深度模型,即對(duì)每個(gè)小區(qū)的流量按以上方法劃分訓(xùn)練數(shù)據(jù)集,將所有小區(qū)訓(xùn)練數(shù)據(jù)用于訓(xùn)練一個(gè)寬度&深度模型。 寬度&深度模型經(jīng)過(guò)訓(xùn)練后用于預(yù)測(cè)網(wǎng)絡(luò)流量。對(duì)于任一小區(qū),將該小區(qū)90 d的網(wǎng)絡(luò)流量、RRC連接數(shù)、PRB利用率數(shù)據(jù)經(jīng)過(guò)處理后輸入寬度&深度模型,模型輸出的31 d網(wǎng)絡(luò)流量值經(jīng)過(guò)反歸一化后,即為預(yù)測(cè)的網(wǎng)絡(luò)流量。 將本文方法用于某市1 000個(gè)基站小區(qū)的實(shí)際網(wǎng)絡(luò)流量預(yù)測(cè),并與當(dāng)前廣泛應(yīng)用的SARIMA模型、BP神經(jīng)網(wǎng)絡(luò)模型和LSTM模型進(jìn)行比較。 選取均方根對(duì)數(shù)誤差作為評(píng)價(jià)指標(biāo): (9) 該指標(biāo)在實(shí)際中被用于評(píng)價(jià)流量預(yù)測(cè)的準(zhǔn)確性,是由于該指標(biāo)采用對(duì)數(shù)計(jì)算方式適用于預(yù)測(cè)值范圍大且非均勻分布的場(chǎng)景,可防止預(yù)測(cè)準(zhǔn)確率被一些大數(shù)值所主導(dǎo)。流量值變化范圍很大,存在很多大值流量,適合于這種對(duì)數(shù)計(jì)算方式。 數(shù)據(jù)集由中興通訊股份有限公司采集和提供。1 000個(gè)基站小區(qū)的無(wú)線網(wǎng)絡(luò)流量數(shù)據(jù)包括:空口下行業(yè)務(wù)字節(jié)數(shù)(即流量值)、PRB利用率、RRC連接數(shù)、用戶速率、平均CQI(channel quality indication)、小區(qū)用戶面丟包率、小區(qū)PRB信道滿負(fù)荷時(shí)間等。數(shù)據(jù)以天為粒度,時(shí)間范圍為2017年9月1日至2018年3月31日。每天有一個(gè)流量值,由此形成流量時(shí)間序列數(shù)據(jù)。 將數(shù)據(jù)集中前6個(gè)月數(shù)據(jù)作為訓(xùn)練集,時(shí)間范圍為2017年9月1日至2018年2月28日;最后一個(gè)月數(shù)據(jù)為測(cè)試集,時(shí)間為2018年3月1日至31日。 寬度&深度模型的深度部分包含兩個(gè)隱藏層(如圖3所示),分別包含600個(gè)和300個(gè)神經(jīng)元,激活函數(shù)采用線性整流函數(shù)(rectified linear unit, ReLU)。模型訓(xùn)練方法采用自適應(yīng)矩估計(jì)(adaptive moment estimation, Adam)優(yōu)化器,損失函數(shù)采用RMSLE;學(xué)習(xí)率初始為0.001,采用指數(shù)衰減學(xué)習(xí)方法;訓(xùn)練200輪,每輪的批量為32,即每次使用32個(gè)樣本更新梯度,當(dāng)連續(xù)5批的誤差下降小于0.000 01時(shí)停止訓(xùn)練。 為了驗(yàn)證寬度&深度模型預(yù)測(cè)流量的效果,本文用BP神經(jīng)網(wǎng)絡(luò)取代圖3中的寬度&深度模型,用于網(wǎng)絡(luò)流量預(yù)測(cè)。BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)中的數(shù)據(jù)處理方法、訓(xùn)練數(shù)據(jù)劃分與寬度&深度模型相同。BP神經(jīng)網(wǎng)絡(luò)與寬度&深度模型采用相同的隱藏層數(shù)、隱藏單元數(shù)、激活函數(shù)、優(yōu)化器、損失函數(shù)和訓(xùn)練方法。 用SARIMA模型預(yù)測(cè)時(shí),對(duì)每個(gè)小區(qū)分別建立一個(gè)SARIMA模型。使用網(wǎng)格搜索最小化RMSLE來(lái)定階。自回歸和滑動(dòng)平均模型階數(shù)的取值為[0,2],周期階數(shù)為0或1,單步迭代預(yù)測(cè)得到31 d流量。 4.3.1 寬度&深度模型與BP神經(jīng)網(wǎng)絡(luò)模型對(duì)比 由3.3節(jié)可知,寬度&深度模型的深度部分是一個(gè)多輸入多輸出的神經(jīng)網(wǎng)絡(luò),此小節(jié)將寬度&深度模型與神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比。 機(jī)器學(xué)習(xí)模型參數(shù)的初始化是隨機(jī)的,使用同樣的超參數(shù),每次訓(xùn)練得到的模型參數(shù)會(huì)有差異,即每次訓(xùn)練得到的模型有差別。寬度&深度模型與BP神經(jīng)網(wǎng)絡(luò)模型在采用上文中超參數(shù)情況下,分別進(jìn)行50次訓(xùn)練,通過(guò)訓(xùn)練各得到50個(gè)模型。將寬度&深度和BP神經(jīng)網(wǎng)絡(luò)的各自50個(gè)模型用于流量預(yù)測(cè),預(yù)測(cè)流量的均方根對(duì)數(shù)誤差如圖4所示。 圖4 模型的預(yù)測(cè)準(zhǔn)確度比較Figure 4 Comparison of prediction accuracy of models 由圖4可見(jiàn),50個(gè)寬度&深度模型的預(yù)測(cè)結(jié)果穩(wěn)定性好,每個(gè)模型的預(yù)測(cè)準(zhǔn)確度都在1左右;而50個(gè)BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果不穩(wěn)定,只有少部分模型的預(yù)測(cè)準(zhǔn)確度達(dá)到1,大部分模型的預(yù)測(cè)準(zhǔn)確度為3或以上,其最差模型的準(zhǔn)確度大約只有寬度&深度模型的16.7%。 對(duì)訓(xùn)練得到的50個(gè)寬度&深度模型和50個(gè)BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果進(jìn)行顯著性檢驗(yàn),來(lái)檢驗(yàn)預(yù)測(cè)結(jié)果是否存在顯著性差異。使用威爾科克森符號(hào)秩檢驗(yàn)方法進(jìn)行非參數(shù)檢驗(yàn),假設(shè)兩個(gè)模型的結(jié)果無(wú)顯著差異,得到的顯著性小于0.01,遠(yuǎn)小于0.05,因此假設(shè)不成立,即兩個(gè)模型的預(yù)測(cè)結(jié)果存在顯著性差異。秩計(jì)算結(jié)果如表2所示,其中BP神經(jīng)網(wǎng)絡(luò)模型RMSLE值和寬度&深度模型RMSLE值之差的負(fù)秩數(shù)量為12,占總數(shù)的24%;正秩數(shù)量為38,占總數(shù)的76%,也說(shuō)明了寬度&深度模型要優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型。 表2 秩計(jì)算結(jié)果Table 2 Result of the rank calculation 由此可見(jiàn),寬度&深度模型相較于BP神經(jīng)網(wǎng)絡(luò)模型,增加了寬度部分,因此提升了模型的穩(wěn)定性,得到更好的預(yù)測(cè)效果。寬度&深度模型結(jié)合了神經(jīng)網(wǎng)絡(luò)的泛化能力和線性模型的記憶能力,通過(guò)在寬度部分輸入小區(qū)的特征,對(duì)深度模型的預(yù)測(cè)結(jié)果進(jìn)行修正,因而得到比BP神經(jīng)網(wǎng)絡(luò)更準(zhǔn)確的預(yù)測(cè)結(jié)果。 4.3.2 寬度&深度模型與SARIMA模型對(duì)比 ARIMA系列模型常被用來(lái)預(yù)測(cè)時(shí)間序列,因此將本文方法與SARIMA模型進(jìn)行對(duì)比。由于SARIMA模型采用網(wǎng)格搜索的方式定階,因此不存在隨機(jī)性。將訓(xùn)練得到的50個(gè)寬度&深度模型的預(yù)測(cè)結(jié)果的平均均方根對(duì)數(shù)誤差與SARIMA模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,如表3所示。由表3可見(jiàn),本文方法的預(yù)測(cè)效果明顯優(yōu)于SARIMA模型。 表3 寬度&深度模型和SARIMA模型的預(yù)測(cè)結(jié)果比較Table 3 Comparison of prediction results of Wide & Deep model and SARIMA model 4.3.3 寬度&深度模型與LSTM模型對(duì)比 按第2節(jié)方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,為每個(gè)小區(qū)建立一個(gè)LSTM模型。模型的輸入為連續(xù)63 d的流量序列,輸出為第64天的流量。通過(guò)31次單步預(yù)測(cè)來(lái)預(yù)測(cè)未來(lái)31 d的流量。模型由兩層LSTM層和一層全連接層組成,兩層LSTM層的單元數(shù)分別設(shè)置為64和32,激活函數(shù)采用雙曲正切函數(shù),全連接層的神經(jīng)元個(gè)數(shù)為1,作為輸出層。模型的損失函數(shù)設(shè)置為RMSLE,采用Adam優(yōu)化器。實(shí)驗(yàn)結(jié)果如表4所示。由表4可見(jiàn),本文方法的預(yù)測(cè)效果明顯優(yōu)于LSTM模型,且本文方法為所有小區(qū)建立統(tǒng)一模型,更易于應(yīng)用。 表4 寬度&深度模型和LSTM模型的預(yù)測(cè)結(jié)果比較Table 4 Comparison of prediction results of Wide & Deep model and LSTM model 本文提出一種基于寬度&深度模型的基站網(wǎng)絡(luò)流量預(yù)測(cè)方法。首先,利用S-H-ESD算法和窗口平滑方法處理非平穩(wěn)的流量時(shí)間序列數(shù)據(jù)。然后,將流量數(shù)據(jù)作為模型的深度部分(神經(jīng)網(wǎng)絡(luò))輸入,將RRC連接數(shù)和PRB利用率作為模型的寬度部分(線性模型)輸入,將兩部分進(jìn)行聯(lián)合訓(xùn)練獲得流量預(yù)測(cè)模型,用于預(yù)測(cè)網(wǎng)絡(luò)流量。該方法為所有基站小區(qū)流量建立單一模型,具有簡(jiǎn)單和易于實(shí)施的特點(diǎn)。實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于當(dāng)前廣泛采用的SARIMA、BP神經(jīng)網(wǎng)絡(luò)和LSTM模型。 下一步的研究工作包括:進(jìn)一步優(yōu)化模型的寬度部分的特征,提高預(yù)測(cè)準(zhǔn)確率;與更多的預(yù)測(cè)模型進(jìn)行對(duì)比分析。2.2 處理節(jié)日流量
2.3 流量數(shù)據(jù)的平滑處理
3 基于寬度&深度學(xué)習(xí)的流量預(yù)測(cè)
3.1 寬度&深度模型
3.2 寬度部分的特征提取
3.3 利用寬度&深度模型預(yù)測(cè)網(wǎng)絡(luò)流量
4 實(shí)驗(yàn)結(jié)果
4.1 評(píng)價(jià)指標(biāo)
4.2 數(shù)據(jù)集
4.3 實(shí)驗(yàn)和結(jié)果
5 結(jié)論