李 巧,譚獻(xiàn)海
(西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 610031)
網(wǎng)絡(luò)流量體現(xiàn)了網(wǎng)絡(luò)的行為特征,掌握流量特性對(duì)于網(wǎng)絡(luò)規(guī)劃設(shè)計(jì)、性能優(yōu)化等工作具有指導(dǎo)意義。隨著物聯(lián)網(wǎng)通信的迅猛發(fā)展,傳輸?shù)臄?shù)據(jù)種類日益增多,大量M2M終端產(chǎn)生的流量數(shù)據(jù)勢(shì)必會(huì)給網(wǎng)絡(luò)帶來(lái)強(qiáng)烈沖擊和影響[1]。物聯(lián)網(wǎng)采用M2M通信方式,與傳統(tǒng)互聯(lián)網(wǎng)通信方式差別巨大。物聯(lián)網(wǎng)中承載的數(shù)據(jù)流量越來(lái)越大,其流量特性與傳統(tǒng)互聯(lián)網(wǎng)流量不同。
文獻(xiàn)[2]研究發(fā)現(xiàn),物聯(lián)網(wǎng)業(yè)務(wù)不同于傳統(tǒng)互聯(lián)網(wǎng)模式,具有上行占優(yōu)、終端數(shù)量巨大、僅終端發(fā)起、時(shí)延控制、會(huì)話時(shí)間較短、終端移動(dòng)性低等特點(diǎn)。文獻(xiàn)[3]對(duì)智能電網(wǎng)中無(wú)線傳感器網(wǎng)絡(luò)流量在不同算法、不同采樣頻率和不同時(shí)域下進(jìn)行分析,發(fā)現(xiàn)其具有自相似和長(zhǎng)相關(guān)特性。文獻(xiàn)[4]通過(guò)對(duì)骨干網(wǎng)的研究,發(fā)現(xiàn)流量在小時(shí)間尺度上表現(xiàn)出非長(zhǎng)相關(guān)性。
不同物聯(lián)網(wǎng)場(chǎng)景的網(wǎng)絡(luò)流量特性不同,針對(duì)校園物聯(lián)網(wǎng)流量的自相似特性和重尾特性研究較少。本文從粗粒度和細(xì)粒度兩個(gè)方面對(duì)校園物聯(lián)網(wǎng)流量進(jìn)行全面分析,并在此基礎(chǔ)上進(jìn)行仿真驗(yàn)證,對(duì)比實(shí)驗(yàn)結(jié)果和評(píng)價(jià)指標(biāo),確定校園物聯(lián)網(wǎng)流量報(bào)文到達(dá)時(shí)間間隔的數(shù)學(xué)模型。
實(shí)驗(yàn)所用的校園物聯(lián)網(wǎng)流量來(lái)源于新南威爾士大學(xué)(UNSW)采集的數(shù)據(jù)[5],采集時(shí)間為30天,共6 000萬(wàn)條數(shù)據(jù),包含了28種不同物聯(lián)網(wǎng)設(shè)備以及3種非物聯(lián)網(wǎng)設(shè)備。結(jié)合3GPP組織總結(jié)的七大類M2M應(yīng)用實(shí)例[2],設(shè)備可按照類型分為攝像頭、開(kāi)關(guān)和控制器、醫(yī)療設(shè)備、電子設(shè)備、手機(jī)和電腦五大類,見(jiàn)表1所列。
表1 原數(shù)據(jù)分類
由于實(shí)驗(yàn)數(shù)據(jù)有部分空值和臟數(shù)據(jù),因此首先使用Python對(duì)數(shù)據(jù)進(jìn)行空值處理和數(shù)據(jù)清洗工作,然后進(jìn)行數(shù)據(jù)集解析,提取出報(bào)文到達(dá)時(shí)間、數(shù)據(jù)包大小、協(xié)議類型等信息,計(jì)算報(bào)文到達(dá)時(shí)間間隔,為后續(xù)實(shí)驗(yàn)做準(zhǔn)備。
圖1表示每天0:00—24:00的校園物聯(lián)網(wǎng)流量變化情況,橫坐標(biāo)表示產(chǎn)生的數(shù)據(jù)包時(shí)間(單位:min),縱坐標(biāo)表示每分鐘到達(dá)數(shù)據(jù)包的平均個(gè)數(shù)??梢钥闯觯髁慨a(chǎn)生的高峰期位于12:00—18:00,出現(xiàn)了凸起的脈沖,其余時(shí)間段的流量數(shù)據(jù)較為稀疏。
圖1 物聯(lián)網(wǎng)流量變化圖
對(duì)比圖2中白天和夜間的流量,流量均呈現(xiàn)出非線性變化,并有明顯突發(fā)性。夜間流量突發(fā)性相對(duì)較弱,這是由于物與物之間的通信包括部分周期性數(shù)據(jù)包,如狀態(tài)數(shù)據(jù)采集等與人類活動(dòng)無(wú)關(guān)的行為,而白天是用戶活動(dòng)最頻繁的時(shí)間,會(huì)造成網(wǎng)絡(luò)流量在較大時(shí)間跨度上出現(xiàn)強(qiáng)烈波動(dòng)。
圖2 物聯(lián)網(wǎng)流量曲線
物聯(lián)網(wǎng)的流量行為往往復(fù)雜多變,數(shù)據(jù)中含有多種周期類波動(dòng)。自相關(guān)函數(shù)(ACF)是測(cè)量時(shí)間序列中每隔k個(gè)時(shí)間單位(Δt和Δt-k)間的相關(guān)性[6]。如果每隔相同的滯后階數(shù),且自相關(guān)系數(shù)是局部最大值,那么該時(shí)間序列就具有周期性,且局部最大值間的固定間隔就是周期。
圖3所示為校園物聯(lián)網(wǎng)流量的ACF圖,橫坐標(biāo)表示時(shí)間(單位:h),縱坐標(biāo)表示自相關(guān)系數(shù)。可以看出,約每隔24 h就會(huì)出現(xiàn)局部極大值,表明物聯(lián)網(wǎng)流量具有日周期性。物聯(lián)網(wǎng)環(huán)境中包含多種M2M設(shè)備,每種M2M類型的流量具有不同的觸發(fā)機(jī)制和周期間隔,而用戶網(wǎng)絡(luò)活動(dòng)大多集中在白天,導(dǎo)致聚合流量在小時(shí)間范圍內(nèi)不具有周期性。
圖3 物聯(lián)網(wǎng)流量ACF圖
圖4所示為物聯(lián)網(wǎng)流量的偏自相關(guān)函數(shù)(PACF)圖。結(jié)合圖3可知,ACF在lag=2,PACF在lag=3之后便落入置信區(qū)間,表明自相關(guān)系數(shù)和偏相關(guān)系數(shù)均迅速衰減到0附近,故初步判定該時(shí)間序列具有穩(wěn)定性。
圖4 物聯(lián)網(wǎng)流量PACF圖
將校園物聯(lián)網(wǎng)流量分為M2M流量、互聯(lián)網(wǎng)流量,結(jié)合單位根檢驗(yàn)法(ADF)、變異系數(shù)法(CV)兩種方式來(lái)綜合衡量報(bào)文到達(dá)時(shí)間間隔的穩(wěn)定性。
穩(wěn)定性分析參數(shù)見(jiàn)表2所列。采用ADF計(jì)算的t-statistic(t)值遠(yuǎn)小于1%,5%,10%三種置信度的臨界統(tǒng)計(jì)值,且p-value無(wú)限接近于0,說(shuō)明校園物聯(lián)網(wǎng)流量具有穩(wěn)定性;縱向?qū)Ρ?種流量,穩(wěn)定性程度由大到小分別是總流量、M2M流量、互聯(lián)網(wǎng)流量。M2M設(shè)備產(chǎn)生的流量中既包含定期采集數(shù)據(jù)的流量,又包含交互流量。周期性使得流量在大時(shí)間尺度上顯得比較平滑,掩蓋了流量的突發(fā)性。
表2 穩(wěn)定性分析參數(shù)
3.1.1 自相似特性的定義與估算
自相似過(guò)程的定義:一個(gè)連續(xù)隨機(jī)過(guò)程{X(t),t∈R},若滿足a>0,對(duì)于任何d≥1,公式(1)始終成立,則我們可以稱X(t)是具備自相似系數(shù)Hurst(H)的自相似過(guò)程。
Hurst指數(shù)是衡量流量是否具有自相似特性的關(guān)鍵參數(shù)。目前估計(jì)Hurst參數(shù)的方法可大致分為時(shí)域算法和頻域算法兩類。時(shí)域算法主要包括:R/S法、留數(shù)法、方差時(shí)間圖法、絕對(duì)值法等;頻域算法主要包括:Whittle法、小波變換分析法(Wavelet)[7]。綜合各種計(jì)算方法的準(zhǔn)確性和復(fù)雜性,本實(shí)驗(yàn)采用R/S法來(lái)估計(jì)Hurst參數(shù)。
3.1.2 校園物聯(lián)網(wǎng)流量自相似特性分析
本實(shí)驗(yàn)使用R/S法對(duì)網(wǎng)絡(luò)流量的數(shù)據(jù)包到達(dá)時(shí)間間隔和數(shù)據(jù)包的長(zhǎng)度進(jìn)行Hurst參數(shù)估算,實(shí)驗(yàn)結(jié)果見(jiàn)表3所列。報(bào)文到達(dá)時(shí)間間隔和每秒到達(dá)的數(shù)據(jù)包長(zhǎng)度的Hurst參數(shù)估計(jì)值均大于0.5,表明校園物聯(lián)網(wǎng)流量具有自相似特性。
表3 Hurst參數(shù)估值
3.1.3 不同傳輸協(xié)議的自相似性
傳輸層協(xié)議是導(dǎo)致網(wǎng)絡(luò)流量表現(xiàn)出自相似性的重要因素之一[8]。按照數(shù)據(jù)協(xié)議類型對(duì)數(shù)據(jù)分類,并分別使用到達(dá)時(shí)間間隔和數(shù)據(jù)包長(zhǎng)度數(shù)據(jù)來(lái)計(jì)算Hurst參數(shù),結(jié)果見(jiàn)表4所列。TCP流量的占比相比傳統(tǒng)互聯(lián)網(wǎng)流量[5,9]有所減弱,而UDP協(xié)議的流量明顯增加。ICMP協(xié)議流量的Hurst值始終小于0.5,不具有自相似特性;其余協(xié)議流量Hurst參數(shù)均大于0.5,具有自相似特性。其中,TCP協(xié)議流量的Hurst值始終大于0.8,說(shuō)明其具有較強(qiáng)的自相似特性。
表4 不同傳輸協(xié)議的Hurst參數(shù)估值
3.2.1 校園物聯(lián)網(wǎng)流量重尾特性分析
在網(wǎng)絡(luò)特性的研究中,重尾現(xiàn)象隨處可見(jiàn),當(dāng)連續(xù)事件間存在長(zhǎng)時(shí)間的等待現(xiàn)象時(shí),則滿足重尾分布的特點(diǎn)[10]。
概率密度計(jì)算:設(shè)樣本值為N,區(qū)間長(zhǎng)度為Δt,統(tǒng)計(jì)落在(Δt, (i+1)Δt)的樣本數(shù)量ni,ni與總樣本數(shù)N之間的概率計(jì)算見(jiàn)公式(2):
將校園物聯(lián)網(wǎng)流量分為M2M流量、互聯(lián)網(wǎng)流量,分別使用公式(2)計(jì)算報(bào)文到達(dá)時(shí)間間隔(單位:s)落在每一個(gè)子區(qū)間的概率,報(bào)文到達(dá)時(shí)間間隔與對(duì)應(yīng)的概率如圖5所示。圖中橫坐標(biāo)為報(bào)文到達(dá)時(shí)間間隔,縱坐標(biāo)為橫坐標(biāo)對(duì)應(yīng)概率的對(duì)數(shù)值。由圖5可知,兩種流量均具有明顯的重尾現(xiàn)象。此外,M2M流量的分布具有明顯的分段現(xiàn)象,表明M2M流量具有多尺度特性。
圖5 流量概率密度圖
3.2.2 校園物聯(lián)網(wǎng)流量重尾特性擬合
圖6刻畫了物聯(lián)網(wǎng)流量的基本特性,橫坐標(biāo)表示數(shù)據(jù)包到達(dá)時(shí)間間隔(單位:s),縱坐標(biāo)表示概率密度函數(shù),用來(lái)描述對(duì)應(yīng)時(shí)間間隔的概率。通過(guò)5種典型的重尾分布進(jìn)行對(duì)比,其中,紫色實(shí)線為帕累托(Pareto)分布擬合曲線,綠色虛線為冪律(Power-law)分布擬合曲線,黃色實(shí)線為指數(shù)(Exponential)分布擬合曲線,紅色虛線為對(duì)數(shù)正態(tài)(Lognormal)分布擬合曲線,灰色虛線為威布爾(Weibull)擬合曲線,藍(lán)色圓點(diǎn)為物聯(lián)網(wǎng)流量報(bào)文到達(dá)時(shí)間間隔的概率。由于數(shù)據(jù)太過(guò)密集,不易觀察,將圖6中的橫坐標(biāo)區(qū)間[0,50]和縱坐標(biāo)區(qū)間[0,0.005]進(jìn)行放大,得到圖7。
圖6 報(bào)文到達(dá)時(shí)間間隔重尾分布擬合完整曲線
圖7 報(bào)文到達(dá)時(shí)間間隔重尾分布擬合局部曲線
選用R2和RMSE的值來(lái)反映擬合效果,以選取合適的分布模型刻畫流量特性。結(jié)合圖7和表5可知,擬合效果最佳的是Pareto分布,其擬合曲線經(jīng)過(guò)大部分實(shí)驗(yàn)數(shù)據(jù)點(diǎn),且其R2值最接近1,RMSE 最小。由此證明,Pareto分布是反應(yīng)校園物聯(lián)網(wǎng)報(bào)文到達(dá)時(shí)間間隔變化規(guī)律的優(yōu)質(zhì)數(shù)學(xué)模型。
表5 校園物聯(lián)網(wǎng)流量概率分布模型擬合及評(píng)價(jià)參數(shù)
本文以校園物聯(lián)網(wǎng)流量為研究對(duì)象,從粗粒度和細(xì)粒度兩個(gè)方面對(duì)校園物聯(lián)網(wǎng)流量進(jìn)行分析。從粗粒度方面研究,發(fā)現(xiàn)校園物聯(lián)網(wǎng)流量具有日周期性、穩(wěn)定性和非線性等特征。從細(xì)粒度方面研究,發(fā)現(xiàn)校園物聯(lián)網(wǎng)流量具有自相似特性,且校園物聯(lián)網(wǎng)報(bào)文到達(dá)時(shí)間間隔的概率密度函數(shù)具有明顯的重尾特性和尺度特性。采用五類典型概率分布模型進(jìn)行擬合實(shí)驗(yàn),對(duì)比分析實(shí)驗(yàn)結(jié)果,評(píng)價(jià)指標(biāo)R2和RMSE,確定校園物聯(lián)網(wǎng)報(bào)文到達(dá)時(shí)間間隔變化規(guī)律的最佳模型是Pareto。
物聯(lián)網(wǎng)技術(shù)2021年12期