燕昺昊,韓國棟,黃雅靜,王孝龍
(國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,鄭州 450002)(*通信作者電子郵箱ndscybh@qq.com)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,涌現(xiàn)出了各式各樣的新型網(wǎng)絡(luò)應(yīng)用。這些應(yīng)用在滿足人們需求的同時(shí)也帶來了許多的問題,如網(wǎng)絡(luò)擁塞[1]、違法信息傳播[2]等。而且由于文件共享、視頻直播、網(wǎng)絡(luò)游戲等對(duì)等網(wǎng)絡(luò)(Peer-to-Peer, P2P)應(yīng)用的迅猛發(fā)展,網(wǎng)絡(luò)帶寬愈加不堪重負(fù)。P2P應(yīng)用已經(jīng)遠(yuǎn)遠(yuǎn)超過傳統(tǒng)應(yīng)用流量(如Email、Web),占據(jù)了60%~80%的網(wǎng)絡(luò)帶寬[3],成為互聯(lián)網(wǎng)流量的主流。甚至在某些情況下,P2P流量泛濫,占用帶寬過多,造成其他非P2P流量受到嚴(yán)重影響[4],因此,如何快速、準(zhǔn)確地識(shí)別各類流量,消除P2P流量泛濫帶來的影響至關(guān)重要。
早期的流量識(shí)別方式主要以默認(rèn)端口為主,具有簡單、快捷等優(yōu)點(diǎn),但是隨著隨機(jī)端口和偽裝技術(shù)的出現(xiàn),此方法已經(jīng)不再適用[5]。為解決這些問題,出現(xiàn)了基于負(fù)載檢測的識(shí)別方式。雖然此方法精確度很高,但需要消耗大量的計(jì)算資源,并且受限于協(xié)議加密技術(shù)等問題,同樣難以滿足實(shí)際要求[6]。近年來,基于統(tǒng)計(jì)特征和機(jī)器學(xué)習(xí)的識(shí)別方式(如貝葉斯網(wǎng)絡(luò)[7]、決策樹[8]、支持向量機(jī)[9]、神經(jīng)網(wǎng)絡(luò)[10]等),以其實(shí)時(shí)性和高準(zhǔn)確性,且不受上述問題限制,成為國內(nèi)外研究的熱點(diǎn)。
但研究發(fā)現(xiàn),實(shí)際網(wǎng)絡(luò)中P2P流量占據(jù)大多數(shù),非P2P只占少數(shù),這種情況會(huì)顯著降低非P2P流量識(shí)別準(zhǔn)確率,導(dǎo)致整體識(shí)別率降低。而現(xiàn)有識(shí)別方式都只在特定情況下進(jìn)行流量識(shí)別,并沒有考慮實(shí)際中存在的流量非平衡問題。
在研究以往流量識(shí)別的基礎(chǔ)上,本文將非平衡數(shù)據(jù)分類思想應(yīng)用于已知流量識(shí)別問題,通過引入合成少數(shù)類過采樣技術(shù)(Synthetic Minority Over-sampling Technique, SMOTE)并進(jìn)行改進(jìn),實(shí)現(xiàn)了流量的平衡化處理,并將處理后的流量數(shù)據(jù)應(yīng)用于不同類型分類器模型。實(shí)驗(yàn)結(jié)果表明,提出的方法可以有效提高非P2P流量識(shí)別準(zhǔn)確率及流量整體識(shí)別率。本文提出的方法僅用于已知流量識(shí)別,而對(duì)于未知流量,由于其協(xié)議規(guī)范一般不公開或經(jīng)過加密處理,且識(shí)別過程需要一定的先驗(yàn)知識(shí)(如協(xié)議的逆向解析),不在文章研究范圍之內(nèi)。
非平衡數(shù)據(jù)是指不同類的數(shù)據(jù)之間數(shù)量上的差異,即某一類的數(shù)據(jù)明顯少于另一類或明顯少于其他幾類。通常將數(shù)量占優(yōu)的一類稱為多數(shù)類或正類,數(shù)量稀少的一類數(shù)據(jù)成為少數(shù)類或負(fù)類。
由非平衡數(shù)據(jù)引出的非平衡數(shù)據(jù)分類問題,廣泛存在于實(shí)際應(yīng)用中,特別是在網(wǎng)絡(luò)入侵檢測[11]、醫(yī)療診斷[12]、數(shù)據(jù)挖掘[13]等方面具有極其重要的研究價(jià)值。以網(wǎng)絡(luò)入侵檢測為例,如何快速、有效地在海量正常數(shù)據(jù)中識(shí)別分類出惡意信息是入侵檢測的關(guān)鍵。本文中解決的流量失衡問題,也具有非平衡數(shù)據(jù)的特征。
分類器性能的優(yōu)劣以及對(duì)于非平衡數(shù)據(jù)的敏感程度,很大程度上決定了非平衡數(shù)據(jù)的分類效果。本章分析了3種不同類型的分類器及其在非平衡分類方面存在的缺陷。
隨機(jī)森林(Random Forest, RF)作為一種典型的組合分類器,通過同時(shí)生成多棵決策樹并運(yùn)用投票機(jī)制(vote mechanism)來進(jìn)行決策。已有研究表明,隨機(jī)森林可以很好地解決多分類問題,且不會(huì)產(chǎn)生明顯的過擬合現(xiàn)象,且分類精度高于單獨(dú)的決策樹分類器。
但隨機(jī)森林算法也存在缺點(diǎn):由于隨機(jī)森林決策樹生成采用Bootstrap重抽樣方式從原始樣本中抽取樣本,當(dāng)某一類或某幾類樣本明顯多于其他樣本時(shí),抽取出的多數(shù)類樣本也必然明顯多于少數(shù)類樣本,從而使分類結(jié)果偏向于多數(shù)類,造成少數(shù)類樣本分類精度不高。故隨機(jī)森林算法無法克服非平衡數(shù)據(jù)集的影響。
支持向量機(jī)(Support Vector Machine, SVM)是一種采用統(tǒng)計(jì)學(xué)理論來實(shí)現(xiàn)分類的機(jī)器學(xué)習(xí)算法。最初的SVM僅針對(duì)兩類分類問題,通過在高維空間中尋找一個(gè)最優(yōu)超平面(Optimal Hyperplane)作為兩類的分割,以保證最小的總分類錯(cuò)誤率。隨后針對(duì)多分類問題提出了多分類支持向量機(jī)(Multi-Class Support Vector Machine, MCSVM),通常采用一對(duì)一(One-Vs-One, OVO)或一對(duì)多(One-Vs-Rest, OVR)原則將多分類問題映射為二分類問題,但無論哪種分類問題,最終目的都是使總分類錯(cuò)誤率最小,故當(dāng)數(shù)據(jù)集為非平衡數(shù)據(jù)集時(shí),分類結(jié)果總會(huì)傾向于多數(shù)類樣本,無法很好地處理少數(shù)類樣本。
反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)也是一種典型的多分類模型,基于人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來,是采用誤差反向傳播的一種多層前饋神經(jīng)網(wǎng)絡(luò)。BP網(wǎng)絡(luò)結(jié)構(gòu)簡單易于調(diào)整,除模式識(shí)別、圖像處理、數(shù)據(jù)分類等傳統(tǒng)領(lǐng)域外,在網(wǎng)絡(luò)流量識(shí)別方面也有廣泛的應(yīng)用,但當(dāng)樣本數(shù)少時(shí),存在明顯的過擬合現(xiàn)象,對(duì)分類效果影響很大,故同樣無法有效地對(duì)非平衡流量進(jìn)行處理。
雖然上述3種常用的分類器在流量識(shí)別方面都有不錯(cuò)的效果,但由于自身固有缺陷,均無法很好地解決非平衡流量的識(shí)別問題。
已有研究中對(duì)于非平衡數(shù)據(jù)的分類主要集中在改進(jìn)分類算法和改善數(shù)據(jù)集兩個(gè)方面。例如Apandi等[14]曾提出一種整體加權(quán)線性算法來處理視頻中的非平衡數(shù)據(jù);Liang等[15]提出一種多點(diǎn)聚類算法來分類非平衡數(shù)據(jù)。本文從數(shù)據(jù)層面來解決分類問題,引入SMOTE算法[16]。
非平衡數(shù)據(jù)的傳統(tǒng)處理方法包括過采樣和減采樣,無論哪種方法,都只是機(jī)械對(duì)原始數(shù)據(jù)進(jìn)行簡單復(fù)制,造成新生成的樣本缺乏多樣性。而SMOTE算法可看作是傳統(tǒng)過采樣方法的一種改進(jìn),通過在原始樣本與最近鄰?fù)悩颖局g隨機(jī)線性插入新樣本,有效地保持了新生樣本的多樣性,在提高分類器效果的同時(shí)抑制了由樣本單一性造成的過擬合現(xiàn)象。
算法過程如下。
1)對(duì)于每個(gè)少數(shù)類樣本Xi,從其N個(gè)最近鄰?fù)悩颖局须S機(jī)選取K個(gè),記為Xk。
2)按照式(1)生成新樣本XNew,u(0,1)為(0,1)區(qū)間服從均勻分布的隨機(jī)數(shù):
XNew=Xi+u(0,1)(Xk-Xi)
(1)
3)將生成的樣本插入少數(shù)類樣本集中。
均值SMOTE(Mean SMOTE, M-SMOTE)算法也存在某些缺陷,如N值選取需要靠經(jīng)驗(yàn)來決定,存在盲目性;且當(dāng)少數(shù)類樣本邊緣化趨勢較重時(shí),新生成的樣本會(huì)加重邊緣化趨勢。
針對(duì)流量分類過程,需要生成的新樣本在具有多樣性的同時(shí)更集中于樣本集中心以具有更豐富的特征屬性,同時(shí)避免N值的盲目選取,提出了M-SMOTE算法,即使用樣本平均值點(diǎn)Xmean來代替Xk,在Xmean和Xi之間進(jìn)行插值。
M-SMOTE算法如下。
設(shè)少數(shù)類原始樣本為:
(2)
平均值表示為:
(3)
(4)
C表示少數(shù)類樣本個(gè)數(shù)。新樣本生成公式可更新為:
XM-New=Xi+u(0,1)(Xmean-Xi)
(5)
由于每個(gè)樣本可看作特征空間的一個(gè)N維向量,故采用向量內(nèi)積形式,將SMOTE算法及M-SMOTE算法中新生成樣本,分別與負(fù)類樣本聚類中心點(diǎn)進(jìn)行相似性分析。內(nèi)積作為線性代數(shù)中一種計(jì)算方法,可有效地度量向量間的相似性程度。如式(6)所示:
(6)
其中n為向量特征維數(shù)。
由向量內(nèi)積概念可知,兩組向量間相似性程度越大,內(nèi)積越大。對(duì)于聚類樣本,可將Xmean視為樣本聚類中心點(diǎn)。故定義樣本均值向量Y=Xmean本身內(nèi)積為標(biāo)準(zhǔn)內(nèi)積Innerstd:
(7)
將SMOTE算法與M-SMOTE算法新生成樣本XNew和XM-New分別與Xmean作內(nèi)積,并于標(biāo)準(zhǔn)內(nèi)積比較,來度量兩種算法中新生成樣本與聚類中心的相似性。過程如下:
(8)
(9)
(10)
同理可得:
(11)
對(duì)比式(10)~(11)消去相同項(xiàng),同時(shí)由于為(0,1)上服從均勻分布的任意隨機(jī)數(shù),可假設(shè)式(10)~(11)中取值相同。故化簡得:
(12)
(13)
計(jì)算Inner1、Inner2與Innerstd之間絕對(duì)差值,可得:
|Inner1-Innerstd|>0
(14)
|Inner2-Innerstd|=0
(15)
故有結(jié)論:
|Inner1-Innerstd|>|Inner2-Innerstd|
(16)
由式(16)可知,M-SMOTE算法生成新樣本與樣本均值的內(nèi)積比SMOTE算法更接近與標(biāo)準(zhǔn)內(nèi)積。故在相同條件下,可認(rèn)為M-SMOTE算法生成的新樣本更集中于聚類中心點(diǎn),因而具有更多的特征屬性,適用于流量識(shí)別過程。
M-SMOTE算法復(fù)雜度主要集中在u(0,1)(Xmean-Xi)一項(xiàng),其中樣本均值Xmean時(shí)間復(fù)雜度為O(n),n為樣本特征維度,因此M-SMOTE算法時(shí)間復(fù)雜度為O(n·N2),其中N為算法采樣率。
由上述分析可知,本文中提出的非平衡流量處理方式其時(shí)間復(fù)雜度僅與M-SMOTE算法時(shí)間復(fù)雜度有關(guān),不依賴于具體的分類器,且復(fù)雜度低,具有較好的可實(shí)現(xiàn)性。
網(wǎng)絡(luò)流量通常包含多種P2P和非P2P應(yīng)用流量,因此流量識(shí)別過程為一個(gè)多分類過程。而SMOTE算法只適用于二分類,所以引入OVR原則來解決多分類與二分類之間的映射關(guān)系。
定義1 當(dāng)存在多個(gè)分類樣本集時(shí),只選擇一個(gè)樣本集作為單類樣本,其余樣本集共同作為同一類樣本,稱為OVR原則。
對(duì)于非平衡數(shù)據(jù)集,可將少數(shù)類樣本作為單類樣本,其余多數(shù)類樣本共同作為同一類樣本。本文中的SVM分類器同樣使用了OVR原則來進(jìn)行映射。
為模擬實(shí)際應(yīng)用中網(wǎng)路流量的非平衡特性,本文采用了主流的4種P2P應(yīng)用、1種非P2P應(yīng)用進(jìn)行分類識(shí)別,協(xié)議類別包括傳輸控制協(xié)議(Transmission Control Protocol, TCP)和用戶報(bào)文協(xié)議(User Datagram Protocol, UDP)。如表1所示。
表1 應(yīng)用類型
本文采用的SVM、BP、RF分類器全部屬于有監(jiān)督分類器,需要采用有標(biāo)簽樣本進(jìn)行訓(xùn)練。為獲取有標(biāo)簽樣本集,采用網(wǎng)絡(luò)封包分析軟件Wireshark對(duì)流量數(shù)據(jù)包進(jìn)行采集,即在某段時(shí)間內(nèi),數(shù)據(jù)生成端只運(yùn)行一種應(yīng)用,可在數(shù)據(jù)采集端獲取純凈帶標(biāo)簽的數(shù)據(jù)集。方式如圖1所示。
圖1 流量數(shù)據(jù)收集方式
由于實(shí)驗(yàn)中采集到的流量以數(shù)據(jù)包的形式存在,而單個(gè)數(shù)據(jù)包由于特征太少,攜帶信息量不足,無法很好地進(jìn)行分類,需要將數(shù)據(jù)包按照五元組重新整合為數(shù)據(jù)流的形式,定義如下。
定義2 將{源端口,源IP地址,目的端口,目的IP地址,傳輸層協(xié)議}五種特征的組合稱為五元組。
對(duì)于TCP協(xié)議數(shù)據(jù)流,通常有兩種定義方式:第一種是將起始包(Synchronous, SYN)到終止包(Finish, FIN)之間的所有數(shù)據(jù)包定義為具有相同五元組的數(shù)據(jù)流;第二種是以時(shí)間為度量,將某段時(shí)間內(nèi)具有相同五元組的數(shù)據(jù)包定義為一個(gè)數(shù)據(jù)流。
而對(duì)于UCP協(xié)議,由于屬于無鏈接協(xié)議,通常只以時(shí)間為度量定義數(shù)據(jù)流。由于本文中分類的應(yīng)用既存在TCP也存在UDP,如QQlive和PPstream。故定義如下。
定義3 將時(shí)間內(nèi)具有相同五元組的數(shù)據(jù)包重新定義為一個(gè)數(shù)據(jù)流(包括TCP和UDP)。
根據(jù)定義3,將收集到的數(shù)據(jù)包重新整理為數(shù)據(jù)流的形式,并將數(shù)據(jù)流抽樣組合為非平衡數(shù)據(jù)集。對(duì)每種P2P應(yīng)用抽取104條數(shù)據(jù)流,非P2P應(yīng)用抽取500條數(shù)據(jù)流。
限于篇幅原因,簡要介紹分類器參數(shù)選取。
支持向量機(jī)作為一種映射分類器,通過將低維不可分?jǐn)?shù)據(jù)映射到高維空間從而實(shí)現(xiàn)線性可分,核函數(shù)作為映射函數(shù),對(duì)分類結(jié)果至關(guān)重要。本文選取映射函數(shù)為高斯核函數(shù),如式(17)所示:
K(x,x′)=e(-γ‖x-x′‖)
(17)
其中γ取值為0.5。
典型的BP神經(jīng)網(wǎng)絡(luò)作為三層網(wǎng)絡(luò)結(jié)構(gòu),包括輸入層、輸出層和隱含層。輸入層節(jié)點(diǎn)數(shù)由輸入特征維數(shù)決定,輸出層節(jié)點(diǎn)數(shù)由類別數(shù)決定,隱含層節(jié)點(diǎn)數(shù)沒有統(tǒng)一的選擇方式,一般根據(jù)經(jīng)驗(yàn)選取,如式(18)所示:
(18)
其中:m為輸入層節(jié)點(diǎn)數(shù),n為輸出層節(jié)點(diǎn)數(shù),a為[1,10]區(qū)間整數(shù)。
實(shí)驗(yàn)參數(shù)如表2所示。
表2 BPNN參數(shù)設(shè)置
隨機(jī)森林由單決策樹組合而成,通過Bootstrap抽樣方式為每棵決策樹抽取與原始樣本大小相同的訓(xùn)練樣本集。本文中選取分類回歸樹(Classification And Regression Tree, CART)樹作為單棵決策樹,樹中每個(gè)節(jié)點(diǎn)分裂時(shí)選取使平方誤差最小的屬性進(jìn)行分裂,并且每棵樹的生成并不使用全部特征,而是隨機(jī)選取部分特征,以降低樹與樹之間的相關(guān)性。文本中選取樹的數(shù)量為1 000棵,每棵樹使用隨機(jī)變量數(shù)由lbM+1確定,其中M為總特征數(shù),故隨機(jī)變量數(shù)選擇為6。
特征的選擇對(duì)于分類具有極其重要的意義。Moore等[17]曾統(tǒng)計(jì)提取出249種流特征用于流量識(shí)別,雖然取得了很高的識(shí)別率,但計(jì)算復(fù)雜度和時(shí)間消耗都很高,難以在實(shí)際中應(yīng)用?;谝延械难芯拷y(tǒng)計(jì)發(fā)現(xiàn),當(dāng)特征數(shù)維持在10到50之間時(shí),可以在識(shí)別率和復(fù)雜度之間取得較好的平衡,故在單項(xiàng)識(shí)別準(zhǔn)確率對(duì)比中暫取特征數(shù)為20。部分特征如表3所示。
為描述非平衡數(shù)據(jù)分類準(zhǔn)確度,引入如下概念。
真陽性(True Positive, TP) 正類樣本正確分類個(gè)數(shù);
真陰性(True Negative, TN) 負(fù)類樣本正確分類個(gè)數(shù);
假陽性(False Positive, FP) 負(fù)類樣本錯(cuò)誤分類個(gè)數(shù);
假陰性(False Negative, FN) 正類樣本錯(cuò)誤分類個(gè)數(shù)。
正、負(fù)類樣本分類準(zhǔn)確度(Accuracy, ACC)定義如下。
正類樣本分類準(zhǔn)確率=TP/(TP+FN)
負(fù)類樣本分類準(zhǔn)確率=TN/(TN+FP)
為描述非平衡數(shù)據(jù)總體分類準(zhǔn)確率,引入幾何平均值(Geometric Mean, G-mean):
(19)
式(19)表明,只有當(dāng)正、負(fù)類樣本分類精確度同時(shí)處于較高水平,G-mean值才會(huì)比較高。
表3 部分?jǐn)?shù)據(jù)流特征
實(shí)驗(yàn)整體流程如圖2所示。
首先將網(wǎng)絡(luò)數(shù)據(jù)包按照定義預(yù)處理為數(shù)據(jù)流的形式,通過隨機(jī)抽樣組合為非平衡數(shù)據(jù)集;然后將數(shù)據(jù)集分為訓(xùn)練集和測試集,對(duì)訓(xùn)練集采用M-SMOTE算法進(jìn)行平衡化處理并訓(xùn)練分類器;最后用測試集來測試分類效果。
圖2 實(shí)驗(yàn)整體流程
采用上述參數(shù),本文仿真實(shí)驗(yàn)基于R語言編程實(shí)現(xiàn)。設(shè)定數(shù)據(jù)流持續(xù)時(shí)間為40 s,M-SMOTE算法抽樣率為500%,SMOTE算法中K值與M-SMOTE算法抽樣率相等。驗(yàn)證方式采用10折交叉驗(yàn)證,將數(shù)據(jù)平均分為10份,每次輪流取其中1份作為測試集,其余9份作為訓(xùn)練集,共10次實(shí)驗(yàn)取平均值。
如圖3所示,分別為RF、SVM、BPNN 3種分類器識(shí)別結(jié)果,其中NSMOTE(Non-SMOTE)表示未使用SMOTE算法??梢钥闯?,經(jīng)過SMOTE算法處理,雖然多數(shù)類P2P數(shù)據(jù)流樣本分類精確度略有下降,但少數(shù)類非P2P數(shù)據(jù)流樣本分類精確度得到了明顯的提升,平均提升了16.5個(gè)百分點(diǎn)。
在此基礎(chǔ)上,使用M-SMOTE算法后的少數(shù)類樣本分類精確度相比SMOTE算法仍有所提高,平均提升了3.2個(gè)百分點(diǎn)。證明M-SMOTE算法可以進(jìn)一步改善非平衡流量的識(shí)別準(zhǔn)確率。
多數(shù)類P2P數(shù)據(jù)流量樣分類精度下降的主要原因是因?yàn)樯贁?shù)類樣本的增多,分類器決策函數(shù)或者決策準(zhǔn)則不再顯著偏向與多數(shù)類樣本,或者可以認(rèn)為,SMOTE算法使分類器通過犧牲少量多數(shù)類樣本,來換取少數(shù)類樣本的高準(zhǔn)確率。
圖3 3種算法的實(shí)驗(yàn)結(jié)果對(duì)比
5.2、5.3、5.4節(jié)內(nèi)容基于控制變量法,分析不同因素對(duì)M-SMOTE算法中少數(shù)類樣本識(shí)別準(zhǔn)確率的影響。
圖4為抽樣率對(duì)負(fù)類樣本分類準(zhǔn)確率的影響,可以看出,ACC隨抽樣率整體呈上升趨勢,當(dāng)抽樣率較小時(shí),ACC上升較快;當(dāng)抽樣率達(dá)到600%時(shí),ACC上升變緩,同時(shí)計(jì)算資源和時(shí)間消耗變大。上升變緩主要是因?yàn)楫?dāng)抽樣率為600%時(shí),少數(shù)類樣本數(shù)已經(jīng)足夠多,此時(shí)樣本數(shù)不再是限制識(shí)別準(zhǔn)確率的因素,如需繼續(xù)提高識(shí)別率,需要引入更多的數(shù)據(jù)流特征。故600%的抽樣率適用于M-SMOTE算法,后續(xù)G-mean計(jì)算采用600%采樣率。
圖5所示為抽樣率為600%條件下特征數(shù)對(duì)負(fù)類樣本識(shí)別準(zhǔn)確率的影響。由圖5可知,當(dāng)特征數(shù)為29時(shí),ACC達(dá)到預(yù)期要求,3種分類器識(shí)別率均已超過95%。當(dāng)特征數(shù)大于29時(shí),雖識(shí)別率有進(jìn)一步提高,但是時(shí)間開銷與計(jì)算資源開銷明顯上升,故特征數(shù)為29時(shí)為綜合最優(yōu)狀態(tài)。
圖6所示為不同數(shù)據(jù)流持續(xù)時(shí)間對(duì)少數(shù)類樣本準(zhǔn)確率的影響。由圖6可知,當(dāng)數(shù)據(jù)流持續(xù)時(shí)間較短時(shí),數(shù)據(jù)包組合而成的數(shù)據(jù)流難以獲得包含的統(tǒng)計(jì)特征,分類器無法很好地進(jìn)行訓(xùn)練和識(shí)別,所以識(shí)別準(zhǔn)確率處于較低水平。當(dāng)持續(xù)時(shí)間大于52 s時(shí),識(shí)別準(zhǔn)確率達(dá)到穩(wěn)定狀態(tài),當(dāng)持續(xù)時(shí)間繼續(xù)增大時(shí),增加的統(tǒng)計(jì)特征基本為重復(fù)特征,故識(shí)別準(zhǔn)確率無明顯提升。
圖4 抽樣率對(duì)分類精度影響
圖5 特征數(shù)對(duì)準(zhǔn)確度的影響
圖6 持續(xù)時(shí)間對(duì)分類精度影響
基于上述實(shí)驗(yàn)結(jié)果,選用各條件下綜合最優(yōu)值進(jìn)行總體分類準(zhǔn)確度對(duì)比。表4為不同分類器3種情況下的幾何均值。經(jīng)過SMOTE算法處理后的非平衡數(shù)據(jù)集總體分類準(zhǔn)確率明顯提高,平均值達(dá)到93%以上,相比NSMOTE平均提高了9.5個(gè)百分點(diǎn),同時(shí)本文提出的M-SMOTE算法相比SMOTE算法,總體分類準(zhǔn)確率平均提高了2.6個(gè)百分點(diǎn),相比NSMOTE平均提高了12.1個(gè)百分點(diǎn),達(dá)到95.8%。
本文在流量識(shí)別中采用了非平衡數(shù)據(jù)模型,并且引入了基于統(tǒng)計(jì)學(xué)理論的SMOTE算法來處理非平衡數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,基于非平衡數(shù)據(jù)模型的流量識(shí)別在少數(shù)類非P2P流量識(shí)別準(zhǔn)確率方面有明顯的提高。
基于SMOTE算法改進(jìn)的M-SMOTE算法,避免了原始SMOTE算法中樣本生成的盲目性,使生成的樣本更集中于樣本中心,具有豐富的類別特征。實(shí)驗(yàn)結(jié)果表明,M-SMOTE算法在少數(shù)類非P2P流量識(shí)別準(zhǔn)確率和總體識(shí)別率方面,相比SMOTE算法和原始非平衡數(shù)據(jù)集均有明顯提高,即實(shí)現(xiàn)了在不影響多數(shù)類P2P流量識(shí)別準(zhǔn)確率的前提下,有效提高了網(wǎng)路流量的整體識(shí)別率,從數(shù)據(jù)層面改善了分類器在非平衡數(shù)據(jù)分類方面的缺陷,且本文提出的方法可應(yīng)用于入侵檢測和數(shù)據(jù)挖掘等領(lǐng)域。
表4不同分類器下3種算法的幾何均值對(duì)比%
Tab. 4 G-mean comparison of three algorithms under different classifier %
本文也存在以下不足之處:提出的解決方式及算法適用于已知流量識(shí)別,而實(shí)際中存在未知應(yīng)用流量,故本文提出的方法無法有效地解決未知應(yīng)用的流量識(shí)別問題。下一步的工作將主要集中在解決未知應(yīng)用流量的識(shí)別問題等方面。
References)
[1] VALENTI S, ROSSI D, DAINOTTI A, et al. Reviewing traffic classification [M]// Data Traffic Monitoring and Analysis. Berlin: Springer, 2013: 123-147.
[2] CHEN J, LI J. The research of peer-to-peer network security [C]// Proceedings of the 2015 International Conference on Information Computing and Automation. Singapore: World Scientific, 2015: 590-592.
[3] 翟海濱,張鴻,劉欣然,等.最小化出口流量花費(fèi)的接入級(jí)P2P緩存容量設(shè)計(jì)方法[J].電子學(xué)報(bào),2015,43(5):879-887.(ZHAI H B, ZHANG H, LIU X R, et al. A P2P cache capacity design method to minimize the total traffic cost of access ISPs [J]. Acta Electronica Sinica, 2015, 43(5): 879-887.)
[4] 張國強(qiáng),唐明董,程蘇琦,等.P2P流量優(yōu)化[J].中國科學(xué):信息科學(xué),2012,42(1):1-19.(ZHANG G Q, TANG M D, CHENG S Q, et al. P2P traffic optimization [J]. Science in China: Series F, 2012, 42(1): 1-19.)
[5] KARIM A, SALLEH R B, SHIRAZ M, et al. Botnet detection techniques: review, future trends, and issues [J]. Frontiers of Information Technology & Electronic Engineering, 2014, 15(11): 943-983.
[6] CAO Z, XIONG G, ZHAO Y, et al. A survey on encrypted traffic classification [C]// Proceedings of the 2014 International Conference on Applications and Techniques in Information Security. Berlin: Springer, 2014: 73-81.
[7] GU R, WANG H, JI Y. Early traffic identification using Bayesian networks [C]// Proceedings of the 2010 IEEE International Conference on Network Infrastructure and Digital Content. Piscataway, NJ: IEEE, 2010: 564-568.
[8] ZHU A. A P2P network traffic classification method based on C4.5 decision tree algorithm [C]// Proceedings of the 9th International Symposium on Linear Drives for Industry Applications. Berlin: Springer, 2014: 373-379.
[9] GONG J, WANG W, WANG P, et al. P2P traffic identification method based on an improvement incremental SVM learning algorithm [C]// Proceedings of the 2015 IEEE International Symposium on Wireless Personal Multimedia Communications. Piscataway, NJ: IEEE, 2015: 174-179.
[10] MU C, ZHANG C, HUANG X, et al. The efficiency analysis of the statistical feature in network traffic identification based on BP neural network [C]// Proceedings of the 2014 IEEE International Conference on Broadband Network & Multimedia Technology. Piscataway, NJ: IEEE, 2014: 70-74.
[11] 陳虹,萬廣雪,肖振久.基于優(yōu)化數(shù)據(jù)處理的深度信念網(wǎng)絡(luò)模型的入侵檢測方法[J].計(jì)算機(jī)應(yīng)用,2017,37(6):1636-1643.(CHEN H, WAN G X, XIAO Z J. Intrusion detection method of deep belief network model based on optimization of data processing [J]. Journal of Computer Applications, 2017, 37(6): 1636-1643.)
[12] DEEBA F, MOHAMMED S K, BUI F M, et al. Learning from imbalanced data: a comprehensive comparison of classifier performance for bleeding detection in endoscopic video [C]// Proceedings of the 2016 IEEE International Conference on Informatics, Electronics and Vision. Piscataway, NJ: IEEE, 2016: 1006-1009.
[13] 高志鵬,牛琨,劉杰.面向大數(shù)據(jù)的分析技術(shù)[J].北京郵電大學(xué)學(xué)報(bào),2015,38(3):1-12.(GAO Z P, NIU K, LIU J. Analytics towards big data [J]. Journal of Beijing University of Posts and Telecommunications, 2015, 38(3): 1-12.)
[14] APANDI Z F M, MUSTAPHA N, AFFENDEY L S. Evaluating integrated weight linear method to class imbalanced learning in video data [C]// Proceedings of the 2011 IEEE International Conference on Data Mining and Optimization. Piscataway, NJ: IEEE, 2011: 243-247.
[15] LIANG J, BAI L, DANG C, et al. TheK-means-type algorithms versus imbalanced data distributions [J]. IEEE Transactions on Fuzzy Systems, 2012, 20(4):728-745.
[16] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357.
[17] MOORE A W, ZUEV D. Internet traffic classification using Bayesian analysis techniques [C]// Proceedings of the 2005 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems. New York: ACM, 2005: 50-60.
This work is partially supported by the National Science Technology Major Project of China (2016ZX01012101), the National Natural Science Foundation of China (61572520), the National Natural Science Foundation Innovation Group Project of China (61521003).
YANBinghao, born in 1994, M. S. candidate. His research interests includes traffic identification, intrusion detection, protocol parsing.
HANGuodong, born in 1964, Ph. D., associate professor. His research interests include wide-band information processing and information safety, chip design and application.
HUANGYajing, born in 1984, Ph. D., assistant research fellow. Her research interests include chip design, signal processing.
WANGXiaolong, born in 1993, M. S. candidate. His research interests include wide-band information network, protocol parsing.