周家愷,綦方中
(浙江工業(yè)大學(xué),浙江 杭州 310023)
近年來,我國互聯(lián)網(wǎng)接入技術(shù)的基礎(chǔ)設(shè)施不斷完善,智能終端設(shè)備開始大范圍普及[1,2],各種應(yīng)用服務(wù)持續(xù)創(chuàng)新。手機(jī)作為典型的通信設(shè)備,主要通過鏈路方式和互聯(lián)網(wǎng)進(jìn)行連接,在不同的接入條件下[3],各個(gè)用戶的行為和偏好存在明顯差異?,F(xiàn)階段,只有運(yùn)營商才有資格控制大規(guī)模的流量,但是專家沒有權(quán)利公開獲取數(shù)據(jù)。未來階段深度網(wǎng)絡(luò)特點(diǎn)的分析和預(yù)測(cè)是互聯(lián)網(wǎng)發(fā)展的主要趨勢(shì),尤其是網(wǎng)絡(luò)流量時(shí)延特征識(shí)別。
國內(nèi)外相關(guān)專家針對(duì)該方面的內(nèi)容進(jìn)行了大量的研究,例如黎佳玥等人[4]優(yōu)先訓(xùn)練網(wǎng)絡(luò),獲取網(wǎng)絡(luò)流量的特征變化趨勢(shì),將其作為判定依據(jù)進(jìn)行網(wǎng)絡(luò)安全事件識(shí)別。武思齊等人[5]分別從硬件特點(diǎn)和用戶的行為偏好等角度出發(fā)獲取具有代表性的數(shù)據(jù)流,針對(duì)各個(gè)特性進(jìn)行處理和分析,采用集成學(xué)習(xí)算法構(gòu)建識(shí)別模型,完成移動(dòng)流量識(shí)別。由于上述兩種方法未能在網(wǎng)絡(luò)流量時(shí)延特征識(shí)別過程中構(gòu)建極端梯度提升模型,導(dǎo)致識(shí)別結(jié)果不理想,響應(yīng)時(shí)間也較長。
為解決上述問題,設(shè)計(jì)并提出一種基于樸素貝葉斯的網(wǎng)絡(luò)流量時(shí)延特征識(shí)別方法。測(cè)試結(jié)果表明,所提方法能夠獲取高精度高效率的識(shí)別結(jié)果。
網(wǎng)絡(luò)流量時(shí)延產(chǎn)生的原因是多種多樣的,利用圖1給出網(wǎng)絡(luò)時(shí)延產(chǎn)生的主要因素[6]。
圖1 網(wǎng)絡(luò)時(shí)延形成因素
當(dāng)數(shù)據(jù)從發(fā)送端發(fā)出到接收端收到,導(dǎo)致時(shí)延產(chǎn)生的主要原因有:
1)通信鏈路限制
主要是受訪問鏈路以及路由等相關(guān)因素的限制。
2)網(wǎng)絡(luò)負(fù)載變化
網(wǎng)絡(luò)負(fù)載變化主要是由網(wǎng)絡(luò)波動(dòng)和用戶流量等因素造成的,若時(shí)延波動(dòng)較大,說明網(wǎng)絡(luò)負(fù)載抖動(dòng)較為明顯。在通信鏈路中由于其特性導(dǎo)致時(shí)延的形成,不同類型的通信方式會(huì)對(duì)網(wǎng)絡(luò)時(shí)延產(chǎn)生不同程度的影響。在實(shí)際研究的過程中,設(shè)定網(wǎng)絡(luò)負(fù)載引發(fā)的時(shí)延為噪聲,以此為依據(jù)分析通信鏈路限制對(duì)網(wǎng)絡(luò)流量時(shí)延特征的影響,為后續(xù)的識(shí)別奠定基礎(chǔ)[7,8]。
當(dāng)用戶進(jìn)行互聯(lián)網(wǎng)訪問時(shí),需要優(yōu)先接入網(wǎng)絡(luò)運(yùn)營商,利用運(yùn)營商的核心業(yè)務(wù)連接互聯(lián)網(wǎng)的骨干網(wǎng)絡(luò)。其中,通信鏈路是由接入鏈路和互聯(lián)網(wǎng)路由鏈路組成。
若網(wǎng)絡(luò)負(fù)載對(duì)數(shù)據(jù)時(shí)延產(chǎn)生的影響不明顯,此時(shí)網(wǎng)路流量中的時(shí)延主要是由通信鏈路噪聲產(chǎn)生的。另外,網(wǎng)絡(luò)和固定網(wǎng)絡(luò)兩者之間是完全不同,區(qū)別在于通信鏈路的接入方式。
由于電量是影響設(shè)備運(yùn)行的主要因素,但是設(shè)備并不是時(shí)時(shí)刻刻都在進(jìn)行數(shù)據(jù)傳輸,若設(shè)備處于高速傳輸時(shí),需要將狀態(tài)調(diào)整為高功率狀態(tài);反之,則將其調(diào)整為空閑狀態(tài),有效降低電能損耗。若系統(tǒng)終端一直處于空閑狀態(tài),說明無數(shù)據(jù)傳輸,網(wǎng)絡(luò)呈IDLE狀態(tài),優(yōu)先連接無線網(wǎng)絡(luò),同時(shí)進(jìn)一步轉(zhuǎn)換為CELL—FACH狀態(tài),確保網(wǎng)絡(luò)通信的順利進(jìn)行,但是產(chǎn)生的時(shí)延較長。當(dāng)網(wǎng)絡(luò)中數(shù)據(jù)傳輸速率高于閾值時(shí),RRC會(huì)自動(dòng)調(diào)整到最佳運(yùn)行狀態(tài)。由于網(wǎng)絡(luò)終端流量的使用情況并不規(guī)律,運(yùn)行狀態(tài)也需要不斷變換。其中,RRC狀態(tài)下閾值的變換和時(shí)延標(biāo)準(zhǔn)兩者之間存在較為明顯的差異,其中在IDLE狀態(tài)下進(jìn)行數(shù)據(jù)傳輸?shù)臅r(shí)延可能會(huì)更高一些[9]。
網(wǎng)絡(luò)系統(tǒng)是一個(gè)時(shí)變系統(tǒng),時(shí)延無法采用精準(zhǔn)的函數(shù)描述,但是網(wǎng)絡(luò)流量時(shí)延和固定網(wǎng)絡(luò)時(shí)延的特征是不同的。
其中,鏈路時(shí)延極小值代表通信鏈路在理想條件下的時(shí)延下限。當(dāng)處于固網(wǎng)高速運(yùn)行狀態(tài)時(shí),使網(wǎng)絡(luò)流量時(shí)延的取值和0更接近;若處于無線通信狀態(tài)下,需要保證網(wǎng)絡(luò)流量時(shí)延不會(huì)小于閾值。
由于網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)十分復(fù)雜,因此導(dǎo)致網(wǎng)絡(luò)流量時(shí)延產(chǎn)生的因素也有很多,時(shí)延的波動(dòng)性也較大。其中主要原因?yàn)樘鞖庖约耙苿?dòng)設(shè)備的性能等。由于固網(wǎng)主要通過安全可靠的有線進(jìn)行連接,有效消除網(wǎng)絡(luò)負(fù)載產(chǎn)生的影響,確保其一直處于相對(duì)穩(wěn)定的狀態(tài)。
在網(wǎng)絡(luò)環(huán)境中,若終端應(yīng)用在不同狀態(tài)下進(jìn)行數(shù)據(jù)傳輸時(shí),IP數(shù)據(jù)會(huì)出現(xiàn)各種長度的時(shí)延。
采用ping指令,分別設(shè)定不同的時(shí)間間隔,同時(shí)傳輸ICMP報(bào)文,同時(shí)在國內(nèi)不同的網(wǎng)絡(luò)環(huán)境中進(jìn)行測(cè)試。
根據(jù)TCP/IP網(wǎng)路協(xié)議中的確認(rèn)機(jī)制,得到網(wǎng)絡(luò)流量時(shí)延主要特征。為更加精準(zhǔn)描述網(wǎng)絡(luò)通信鏈路對(duì)不同屬性的影響,需要優(yōu)先消除負(fù)載產(chǎn)生的噪聲,選取符合條件的網(wǎng)絡(luò)流量時(shí)延,同時(shí)還需要滿足式(1)中的約束條件
(1)
式中,pktdata代表數(shù)據(jù)報(bào);pktcak代表回應(yīng)數(shù)據(jù);fi代表得到指定數(shù)據(jù)在流量文件中的序號(hào)函數(shù);fr代表得到指定數(shù)據(jù)報(bào)的重傳次數(shù)。
傳輸鏈路時(shí)延能夠表示為
Delaypkt=ft(pktcak)-ft(pktdata)
(2)
式中,ft代表得到指定數(shù)據(jù)報(bào)的捕捉時(shí)間;Delaypkt代表傳輸鏈路時(shí)延[10]。
在式(1)中,需要確認(rèn)是否存在數(shù)據(jù)反復(fù)傳輸?shù)那闆r。假設(shè)存在反復(fù)傳輸?shù)那闆r,則無法確定pktcak/pktdata數(shù)據(jù)報(bào),同時(shí)時(shí)延也無法精準(zhǔn)計(jì)算,因此需要將這樣的數(shù)據(jù)全部剔除。而式(2)要求盡量降低網(wǎng)絡(luò)負(fù)載,假設(shè)網(wǎng)絡(luò)一直處于忙碌狀態(tài),說明存在大量的數(shù)據(jù)需要進(jìn)行傳輸,其中部分?jǐn)?shù)據(jù)可能處于等待狀態(tài)。若網(wǎng)絡(luò)中沒有數(shù)據(jù)進(jìn)行傳輸,則說明此時(shí)網(wǎng)絡(luò)處于通暢的狀態(tài)。當(dāng)N的取值越小,則說明網(wǎng)絡(luò)發(fā)生擁堵的可能性越??;反之,N的取值越大,則說明網(wǎng)絡(luò)擁堵的可能性也就越大。
在上述分析的基礎(chǔ)上,結(jié)合網(wǎng)絡(luò)往返時(shí)延計(jì)算結(jié)果,獲取和數(shù)據(jù)時(shí)延相關(guān)的網(wǎng)絡(luò)流量特征。同時(shí)利用特征描述各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)接入互聯(lián)網(wǎng)技術(shù)后形成的時(shí)序特征進(jìn)行匹配。
本研究通過樸素貝葉斯和極端梯度提升模型兩者結(jié)合組建分類器。主要目的是為了獲取符合網(wǎng)絡(luò)需求的樣本特征值(x1,x2,…,xn),其中符合最高需求的樣本表示為
Vmap=arg maxP(Ci|x1,x2,…,xn)
(3)
式中,P(x1,x2,…,xn)代表任意常數(shù)。由于不同屬性的取值是相互獨(dú)立的,則有
(4)
通過樸素貝葉斯將式(3)進(jìn)行簡(jiǎn)化,則有
(5)
式中,P(Ci)代表先驗(yàn)概率。
極端梯度提升模型主要利用決策樹,決策樹包含多種不同的類型,以下主要采用決策樹中的回歸樹,無論處理什么類型的問題,都能夠獲取很好的效果?;貧w樹算法的核心思想為獲取網(wǎng)絡(luò)流量時(shí)延特征的全部權(quán)值。
當(dāng)完成回歸樹建立完成后,輸入空間包含多個(gè)輸出值。因此,每一次的輸入全部對(duì)應(yīng)到輸出空間中,方便獲取模型的預(yù)測(cè)輸出。其中回歸模型的表達(dá)形式為
(6)
式中,Rm代表輸出空間中包含的單元總數(shù);cm代表輸出值。
輸入空間確定后,由于輸出數(shù)據(jù)是連續(xù)的,因此計(jì)算平方誤差最小就是二叉樹建立的基本準(zhǔn)則。針對(duì)于確定后的二叉樹各個(gè)單元輸出值,單元的平均值設(shè)定為最優(yōu)結(jié)果,具體如式(7)所示
cm=avg(yi|xi∈Rm)
(7)
接下來劃分輸入空間,經(jīng)過劃分后獲取兩個(gè)區(qū)域,具體如式(8)所示
(8)
式中,j代表第j個(gè)變量;s代表第j個(gè)變量的取值。
通過最小化平方誤差準(zhǔn)則,能夠獲取j和s的取值,即
(9)
其中,集成學(xué)習(xí)主要利用多個(gè)學(xué)習(xí)器完成任務(wù),因此有時(shí)候也能夠被劃分為多個(gè)分類器系統(tǒng)。通常情況下,學(xué)習(xí)器是一個(gè)個(gè)獨(dú)立的個(gè)體,將全部個(gè)體利用某種方式構(gòu)成一個(gè)整體[11],即集成學(xué)習(xí)。整體中包含的個(gè)體就是基礎(chǔ)模塊,其中集成學(xué)習(xí)的示意圖如圖2所示。
圖2 集成學(xué)習(xí)示意圖
對(duì)集成學(xué)習(xí)的全部思想和理論進(jìn)行分析總結(jié),同時(shí)將有使用價(jià)值的策略全部組合在一起,構(gòu)建一個(gè)功能強(qiáng)大的學(xué)習(xí)器。集成學(xué)習(xí)中包含三類,具體如圖3所示。
圖3 集成學(xué)習(xí)的組成
假設(shè)包含的是相同的分類器,則學(xué)習(xí)器被稱為基學(xué)習(xí)器,具體組成框架如圖4所示。
圖4 集成學(xué)習(xí)基本框架
提升算法主要采用加法模型,將決策樹設(shè)定為基礎(chǔ)算法,同時(shí)也是一種前向分布算法。其中初始的提升樹為f0(x)=0,通過加法模型累加起來,第m步能夠表示為
fm(x)=fm-1(x)+T(x;Θm)
(10)
上式中,fm-1(x)當(dāng)前決策樹的線性組合。
利用經(jīng)驗(yàn)風(fēng)險(xiǎn)極小化的方式確定下一棵決策樹的參數(shù)Θm計(jì)算公式為:
(11)
將多棵樹線性組合起來,獲取更好的擬合數(shù)據(jù),因此提升樹是一個(gè)高功能的學(xué)習(xí)算法。其中,CART樹的表達(dá)形式為
(12)
通過前向分布算法,當(dāng)進(jìn)行到第m步驟時(shí),模型可以表示為fm-1(x),通過式(10)獲取的參數(shù)即為第m棵參數(shù)。假設(shè)損失函數(shù)為平方差,則具體的表達(dá)形式為
L(y,f(x))=(y-f(x))2
(13)
將式(10)代入計(jì)算能夠獲取網(wǎng)絡(luò)流量時(shí)延特征識(shí)別模型為
r=y-fm-1(x)
(14)
上述的回歸問題,對(duì)于文本所需要的分類問題只需要在回歸問題的基礎(chǔ)上方便進(jìn)行修改[12]。訓(xùn)練階段對(duì)于訓(xùn)練集D以及不同類型的攻擊都訓(xùn)練一棵分類回歸樹。其中樣本屬于各個(gè)類別的概率為
(15)
(16)
(17)
(18)
(19)
結(jié)合上述分析,將極端梯度提升樹模型和樸素貝葉斯兩者進(jìn)行有效結(jié)合,構(gòu)建一種全新的分類器,同時(shí)對(duì)分類器進(jìn)行訓(xùn)練,采用分類器對(duì)分類網(wǎng)絡(luò)流量時(shí)延特征,最終實(shí)現(xiàn)識(shí)別。
為驗(yàn)證所提基于樸素貝葉斯的網(wǎng)絡(luò)流量時(shí)延特征識(shí)別方法的有效性,實(shí)驗(yàn)選取200臺(tái)主機(jī)作為實(shí)驗(yàn)平臺(tái),將各臺(tái)主機(jī)接入150Mbps的以太網(wǎng)。
實(shí)驗(yàn)對(duì)200個(gè)測(cè)試樣本的網(wǎng)絡(luò)流量時(shí)延特征進(jìn)行識(shí)別分析,選取所提方法、文獻(xiàn)[4]方法以及文獻(xiàn)[5]方法作為對(duì)比方法,實(shí)驗(yàn)的主要目的是驗(yàn)證各個(gè)識(shí)別方法的識(shí)別性能,其中選取識(shí)別正確的肯定比率和絕對(duì)誤差作為測(cè)試指標(biāo),具體的實(shí)驗(yàn)結(jié)果如圖5和圖6所示:
圖5 識(shí)別正確的肯定比率
圖6 相對(duì)誤差
分析圖5和圖6中的實(shí)驗(yàn)數(shù)據(jù)可知,隨著運(yùn)行時(shí)間和實(shí)驗(yàn)次數(shù)的增加,各個(gè)方法識(shí)別正確的肯定比率呈現(xiàn)初始階段高、后期下降的趨勢(shì),而絕對(duì)誤差呈直線上升趨勢(shì)。相比另外兩種方法,所提方法識(shí)別正確的肯定比率明顯更高一些,而絕對(duì)誤差也明顯更低一些。這主要是因?yàn)樗岱椒尤肓藰O端梯度提升模型構(gòu)建了分類器,全面提升了識(shí)別結(jié)果的準(zhǔn)確性。
在識(shí)別的過程中,由于各個(gè)方法的操作流程不同,導(dǎo)致各個(gè)方法的識(shí)別速率存在較為明顯的差異,以下主要通過響應(yīng)時(shí)間衡量不同方法的識(shí)別速率,具體實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同方法的響應(yīng)時(shí)間對(duì)比
分析表1中的實(shí)驗(yàn)數(shù)據(jù)可知,隨著測(cè)試樣本數(shù)量的快速增加,各個(gè)方法的響應(yīng)時(shí)間也開始增加。由于所提方法在研究過程中加入了極端梯度提升模型,通過構(gòu)建的分類器進(jìn)行網(wǎng)絡(luò)流量時(shí)延特征識(shí)別,全面優(yōu)化了識(shí)別流程,同時(shí)有效降低響應(yīng)時(shí)間,促使所提方法的性能明顯優(yōu)于另外兩種方法。
由于傳統(tǒng)網(wǎng)絡(luò)流量時(shí)延特征識(shí)別方法的性能較差,提出一種基于樸素貝葉斯的網(wǎng)絡(luò)流量時(shí)延特征識(shí)別方法。經(jīng)過實(shí)驗(yàn)測(cè)試可知,所提方法能夠全面提升網(wǎng)絡(luò)流量時(shí)延特征識(shí)別結(jié)果的準(zhǔn)確性,同時(shí)還能加快識(shí)別速率。由于時(shí)間以及環(huán)境等多方面因素的限制,導(dǎo)致所提方法仍然存在一定的弊端,后續(xù)將對(duì)其進(jìn)行更加深入地研究,使其綜合性能得到全面提升。