宮光霖,易軍凱,張雅聰
(1.北京信息科技大學(xué) 自動(dòng)化學(xué)院,北京 100192;2.北京化工大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100015)
網(wǎng)絡(luò)流量是網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)[1],為了使網(wǎng)絡(luò)中的數(shù)據(jù)傳輸情況可以被負(fù)責(zé)人清楚地了解,需要對(duì)網(wǎng)絡(luò)流量進(jìn)行分析監(jiān)控。除此之外,流量行為分析作為網(wǎng)絡(luò)安全分析的首要條件,因此又被定義為“網(wǎng)絡(luò)可視化”。現(xiàn)階段用戶隱私和傳輸保護(hù)越來(lái)越受到重視,這也導(dǎo)致數(shù)據(jù)包的加密比例持續(xù)顯著增長(zhǎng),從而使得識(shí)別和分析流量變得異常困難,只有確定網(wǎng)絡(luò)流量的類別才能對(duì)其進(jìn)一步分析。
流量分類是一個(gè)很早就開(kāi)始研究的課題,但是這些研究只是簡(jiǎn)單地將流量劃分為SSL、VPN、encrypted P2P、VoIP、SSH等類別,沒(méi)有太多參考意義,而且隨著加密技術(shù)的興起和廣泛使用,加上流量自身的特性使得對(duì)流量分類變得更加困難。在網(wǎng)絡(luò)環(huán)境中,網(wǎng)絡(luò)流量依托的載體是數(shù)據(jù)包,然而數(shù)據(jù)包的數(shù)量十分龐大,對(duì)流量分類進(jìn)行特征提取時(shí),獲取的特征有限且不是典型的特征,對(duì)其分析難度較大。
近些年在國(guó)內(nèi)對(duì)加密流量雖然有了初步的研究分析,但仍處在一個(gè)比較初級(jí)的階段,研究成果相對(duì)較少。陳貞貞[2]運(yùn)用深層數(shù)據(jù)包檢測(cè)技術(shù)原理,結(jié)合深度學(xué)習(xí),對(duì)HTTPS流量進(jìn)行分類分析,提取出上下行數(shù)據(jù)包平均大小等特征實(shí)現(xiàn)加密流量的識(shí)別;董浩等[3]運(yùn)用網(wǎng)絡(luò)流量與文本結(jié)構(gòu)的相似的特性,將預(yù)處理后的數(shù)據(jù)構(gòu)成一幅圖像,采用CNN模型實(shí)現(xiàn)對(duì)復(fù)雜網(wǎng)絡(luò)加密流量的特征提取和分類;程光等[4]采用支持向量機(jī)結(jié)合相對(duì)熵的概念,基于相對(duì)熵識(shí)別局部隨機(jī)性的特性排除流量干擾,并利用支持向量機(jī)對(duì)加密流量進(jìn)行分類。這些方法大多數(shù)是通過(guò)技術(shù)方法提取網(wǎng)絡(luò)流量的特征并進(jìn)行分析,屬于應(yīng)用行為的分析。
Korczynski等[5]提出基于Markov的加密流量分類方法,在SSL/TLS中傳輸?shù)膽?yīng)用流量隨機(jī)指紋基于Markov鏈,嵌入在SSL/TLS中的信息自然會(huì)形成隨時(shí)間變化的報(bào)文序列,這也是首次將通信的報(bào)文序列定義為Markov隨機(jī)過(guò)程,通過(guò)Markov鏈對(duì)給定應(yīng)用從服務(wù)器端到客戶端的單向流中出現(xiàn)的一系列SSL/TLS報(bào)文類型進(jìn)行建模,生成的模型展示了一種特定的結(jié)構(gòu),該結(jié)構(gòu)允許通過(guò)將其報(bào)文序列與指紋進(jìn)行比較來(lái)對(duì)加密的流量進(jìn)行分類。Shen等[6]認(rèn)為Korczynski等的方法有弊端,首先是SSL/TLS協(xié)議中session ID恢復(fù)的問(wèn)題,避免了客戶端與服務(wù)器完整的握手過(guò)程,當(dāng)要在同一客戶端和服務(wù)器之間建立新的連接時(shí),session ID可能來(lái)自先前的連接或另一個(gè)當(dāng)前已建立的連接;然后是Application Data的問(wèn)題,作者認(rèn)為在SSL/TLS協(xié)議中出現(xiàn)的第一個(gè)Application Data的規(guī)??梢砸暈榱髁糠诸惖年P(guān)鍵功能。而Korczynski等[5]忽略了網(wǎng)絡(luò)傳輸中占比最大的是Application Data,僅對(duì)加密過(guò)程進(jìn)行了分析。基于以上問(wèn)題,筆者進(jìn)行了改進(jìn)并提出了基于二階Markov鏈可感知屬性的加密流量分類方法。
通過(guò)大量的實(shí)驗(yàn)研究分析出上述文獻(xiàn)仍存在不足之處:
①大部分應(yīng)用都是按照協(xié)議進(jìn)行密鑰和證書(shū)交互,特征指紋極容易出現(xiàn)重復(fù),對(duì)分類有較大影響;
②提到的Certificate相比于其他報(bào)文占比很小,反而其他報(bào)文被忽略,因而眾多重要特征也沒(méi)有被提取到;
③Certificate報(bào)文在session ID復(fù)用階段出現(xiàn)的情況很少,通信大部分是通過(guò)TCP報(bào)文保持連接,然后發(fā)送大量應(yīng)用數(shù)據(jù)。
為了解決上述問(wèn)題,本文提出了Length-ware限制聚類的Markov加密流量分類(Encrypted Traffic Classification on Length-Ware Constrained Clustering,Length-ware)方法。Length-ware算法將其他相關(guān)報(bào)文長(zhǎng)度也作為重要的特征分析,通過(guò)GMM[7]對(duì)其建立模型并對(duì)聚類加入限制條件,分析同一應(yīng)用中不同長(zhǎng)度報(bào)文的概率分布來(lái)提高分類準(zhǔn)確率。
網(wǎng)絡(luò)環(huán)境中,不同的應(yīng)用轉(zhuǎn)換報(bào)文狀態(tài)的概率不同,這是一個(gè)隨機(jī)的過(guò)程,而Markov過(guò)程可以描述這個(gè)隨機(jī)過(guò)程。Markov性質(zhì)是下一時(shí)刻的狀態(tài)只與當(dāng)前狀態(tài)有關(guān),與上一時(shí)刻狀態(tài)無(wú)關(guān),用一個(gè)包含多個(gè)狀態(tài)集合的狀態(tài)矩陣去描述轉(zhuǎn)移過(guò)程就是Markov過(guò)程。
Markov過(guò)程是一個(gè)對(duì)現(xiàn)實(shí)高度抽象的極理想的過(guò)程,除了要滿足Markov性質(zhì)外還需要包含狀態(tài)集合、轉(zhuǎn)移矩陣和初始狀態(tài)分布3部分。對(duì)該過(guò)程的概率進(jìn)行計(jì)算,假設(shè)X1,X2,…,Xt是該過(guò)程的一組狀態(tài),那么下一時(shí)刻(t+1)的概率如式(1)所示:
網(wǎng)絡(luò)中的數(shù)據(jù)包數(shù)量十分龐大,獲取的數(shù)據(jù)有限且沒(méi)有典型的特征,傳統(tǒng)的基于機(jī)器學(xué)習(xí)的分類方法無(wú)法對(duì)網(wǎng)絡(luò)流量實(shí)現(xiàn)分類,而Markov過(guò)程可以實(shí)現(xiàn)。
假設(shè)Markov模型t時(shí)刻狀態(tài)為Xt,(t+1)時(shí)刻狀態(tài)Xt+1的概率為:
式中:pi~j(i,j∈T)是Markov過(guò)程的轉(zhuǎn)移概率。
為了使最終的結(jié)果更加準(zhǔn)確,這里進(jìn)一步運(yùn)用2階Markov模型
以QQ的通信數(shù)據(jù)舉例,<(11∶05,11∶02)n>、<(11∶05,11∶02)n,11∶04,11∶02>、<(11∶04,11∶01,11∶01,(24∶,11∶02)n>,這3個(gè)典型的QQ通信數(shù)據(jù)包的應(yīng)用場(chǎng)景和出現(xiàn)概率都不同。
假設(shè)有一段未知的通信序列,我們將這段序列出現(xiàn)的概率定義為初始概率INIP(Initial Probability,INIP),如式(6)所示:
通信序列存在開(kāi)始就存在結(jié)束,因此將完結(jié)的概率定義為結(jié)束概率EXTP(Exit Probability,EXTP),如式(7)所示:
假設(shè)這一段未知的通信序列為seqM=<msg1,msg2,…,msgM>,確定這個(gè)通信序列屬于哪一個(gè)具體應(yīng)用的概率如式(8)所示:
式中:INIPmsg和EXTPmsg分別是以狀態(tài)msg1和msgM為初始狀態(tài)和結(jié)束狀態(tài)的概率。下文以3個(gè)典型的QQ通信數(shù)據(jù)包所示的通信序列模式為例對(duì)上述過(guò)程進(jìn)行解釋。3個(gè)典型的QQ通信數(shù)據(jù)包共包含5種狀態(tài):11∶01,11∶02,11∶04,11∶05,24∶。通過(guò)計(jì)算,INIP11∶05=0.96,φ11∶05=0.37,INIP11∶04=0.04,EXTP11∶02=1。狀態(tài)11∶05轉(zhuǎn)換為狀態(tài)11∶02的轉(zhuǎn)換概率方式在QQ通信中較常見(jiàn),即p11∶05~11∶02=0.35。將狀態(tài)轉(zhuǎn)換概率建立成模型,如圖1所示。
圖1 狀態(tài)轉(zhuǎn)換示意圖
假設(shè)<11∶05,11∶02,11∶05,11∶02,11∶01,24∶,11∶02>是一段隨機(jī)抓取的通信序列,那么這個(gè)通信序列屬于QQ的概率為:P(<11∶05,11∶02,11∶05,11∶02,11∶01,24∶,11∶02>)=0.03。
加密流量是通過(guò)特殊的算法,改變了原有數(shù)據(jù),在傳輸過(guò)程中即使被截獲也無(wú)法獲取其內(nèi)容,為了獲取加密流量的數(shù)據(jù)特征提出分析應(yīng)用行為的方法,在TLS/SSL中實(shí)現(xiàn)數(shù)據(jù)傳輸前,通信雙方需要經(jīng)過(guò)密鑰和證書(shū)交換及用戶數(shù)據(jù)傳輸。這個(gè)過(guò)程比較復(fù)雜,所以實(shí)際應(yīng)用時(shí)通常會(huì)簡(jiǎn)化通信的過(guò)程來(lái)提高通信效率,經(jīng)實(shí)驗(yàn)將該過(guò)程分為3類:
①完整通信過(guò)程,通常發(fā)生在首次申請(qǐng)與服務(wù)器通信,服務(wù)器需要傳輸密鑰和證書(shū)。
②簡(jiǎn)化通信過(guò)程,應(yīng)用短時(shí)間再次與服務(wù)器端連接,不會(huì)進(jìn)行完整通信過(guò)程,服務(wù)器會(huì)從保留的資源里直接獲取相關(guān)參數(shù),并會(huì)通過(guò)一個(gè)報(bào)文ChangeCipherSpec傳送新的密鑰來(lái)確保傳輸?shù)目煽啃浴?/p>
③數(shù)據(jù)傳輸過(guò)程,大部分應(yīng)用僅通過(guò)傳輸控制協(xié)議(TPC)和Application Data 2種報(bào)文傳輸用戶數(shù)據(jù),其中TPC用于保持連接。
大多數(shù)文獻(xiàn)通常僅考慮完整通信過(guò)程,主要研究分析報(bào)文類型,很小一部分文獻(xiàn)考慮到了報(bào)文長(zhǎng)度,而本文主要將報(bào)文長(zhǎng)度作為重要的特征分析,通過(guò)GMM對(duì)其建立模型并對(duì)聚類加入限制條件,然后通過(guò)指紋的概率分布提高分類準(zhǔn)確率。
網(wǎng)絡(luò)數(shù)據(jù)由于量大,屬性少,冗余多的特性,想要對(duì)這個(gè)復(fù)雜的傳輸過(guò)程進(jìn)行分析一直是研究難點(diǎn)。Shen等[6]列舉了Application Data和Certificate 2種報(bào)文,并分析他們的報(bào)文長(zhǎng)度來(lái)提高分類效率,并提出了Bigram聚類算法,以此為基礎(chǔ),豐富原始二階Markov鏈中的狀態(tài),圖2描述了通信狀態(tài)轉(zhuǎn)換的過(guò)程。
圖2 通信狀態(tài)轉(zhuǎn)換
其中,State X與State Y分別表示轉(zhuǎn)換到Certificate報(bào)文前和Certificate報(bào)文轉(zhuǎn)換到Application Data報(bào)文前的其他類型的報(bào)文,Application Data只有報(bào)文長(zhǎng)度不同,在考慮Application Data的概率的同時(shí),Bigram聚類通過(guò)這種報(bào)文長(zhǎng)度的確定其概率分布。根據(jù)實(shí)驗(yàn)分析,文獻(xiàn)仍存在不足之處,圖3是狀態(tài)轉(zhuǎn)換和指紋分布情況。
圖3 狀態(tài)轉(zhuǎn)換指紋分布示意圖
其中,stateα、stateβ、stateγ分別是分析的3類通信過(guò)程中的完整過(guò)程、簡(jiǎn)化過(guò)程和數(shù)據(jù)傳送過(guò)程,stateα狀態(tài)與stateβ?tīng)顟B(tài)的轉(zhuǎn)換過(guò)程一致,最終會(huì)轉(zhuǎn)換為stateγ的狀態(tài),而Certificate只會(huì)出現(xiàn)在stateα狀態(tài),該狀態(tài)在傳輸大量數(shù)據(jù)后很久不會(huì)再發(fā)生,因此,作為Bigram聚類核心的Certificate報(bào)文對(duì)stateβ?tīng)顟B(tài)和stateγ狀態(tài)很難進(jìn)行分析。其次,stateα、stateβ和stateγ狀態(tài)內(nèi)都存在大量重復(fù)問(wèn)題,而stateα狀態(tài)作為主要分析對(duì)象最為嚴(yán)重,嚴(yán)重影響分類效果的準(zhǔn)確性。
所以為了解決報(bào)文間的重復(fù)問(wèn)題,將報(bào)文長(zhǎng)度作為重要的特征分析,建立了三類過(guò)程狀態(tài)之間的N-gram模型,并提出基于Length-ware的限制聚類報(bào)文概率分布模型,然后通過(guò)計(jì)算指紋的分布概率提高分類準(zhǔn)確率。
加密傳輸?shù)膱?bào)文除了長(zhǎng)度沒(méi)有典型的特征可以用作分析,而本文也正是將報(bào)文長(zhǎng)度作為重要的特征分析N-gram模型[8],對(duì)不同長(zhǎng)度的報(bào)文概率分布建模,如圖4所示。
圖4 概率分布模型示意圖
如圖4所示,每個(gè)狀態(tài)中指紋的報(bào)文長(zhǎng)度不同,而一個(gè)指紋可以定義為一個(gè)N-gram模型,不同報(bào)文長(zhǎng)度情況的指紋就構(gòu)成N-gram多元模型,假設(shè)是指紋中的一種報(bào)文長(zhǎng)度,那么一個(gè)狀態(tài)中的一種指紋可以定義為,而一個(gè)狀態(tài)含有多個(gè)指紋,可以定義為fpα,β,γ=(fp1,fp2,fp3,…,fpi)。
fpα,β,γ狀態(tài)是其內(nèi)眾多指紋及其報(bào)文長(zhǎng)度的組合,無(wú)法確定具體的參數(shù)和分布類型,怎么去定義fpα,β,γ是模型建立的關(guān)鍵。高斯混合模型表示了觀測(cè)數(shù)據(jù)在總體中的概率分布,它是一個(gè)由多個(gè)正態(tài)分布組成的混合分布,通常來(lái)說(shuō),一個(gè)混合模型可以表示任何概率的正態(tài)分布,即用高斯混合模型表示任意一種未知的分布。假設(shè)fpα,β,γ中的其中一個(gè)特征指紋fpi滿足一種正態(tài)分布,那么就能夠用GMM描述fp:
式中:ai是各分布的混合參數(shù)a1+a2+a3+…+an=1,θi是正態(tài)分布的參數(shù)(μi,σi),式(9)可以轉(zhuǎn)化為:
所有的參數(shù)為θ=(θ1,θ2,θ3,…,θn,a1,a2,a3,…,an),用MLE的方法求參數(shù)θ,假設(shè)獲取的樣本為X=(x1,x2,x3,…,xn):
N-gram模型通過(guò)MLE的方法計(jì)算參數(shù),但是式(13)所示的計(jì)算方法的計(jì)算量和計(jì)算過(guò)程都很復(fù)雜,在實(shí)際運(yùn)算中很難算出參數(shù)。此外,不同應(yīng)用的指紋,也可能存在相同長(zhǎng)度的報(bào)文,算法要計(jì)算一個(gè)指紋中不同長(zhǎng)度報(bào)文的概率,引用聚類的方法來(lái)計(jì)算N-gram模型的概率分布。
常見(jiàn)聚類的原理是隨機(jī)選取若干樣本,按照樣本間的距離大小,將樣本集重新劃分為n個(gè)簇。為了將相同IP地址的指紋盡量劃分成一個(gè)簇來(lái)提高分類效果,在計(jì)算參數(shù)時(shí)給與限制條件,使得同一個(gè)簇內(nèi)的指紋如果相類似,盡可能來(lái)自同一應(yīng)用,加快了收斂速度。此外,聚類時(shí)由于分類數(shù)量遠(yuǎn)小于IP地址數(shù)量,獲取的數(shù)據(jù)包被劃分成Y=(y1,y2,y3,…,yn)等價(jià)集。
假設(shè)樣本X=(x1,x2,x3,…,xn)在計(jì)算參數(shù)時(shí)加入限制條件Φc,有一個(gè)簇的劃分Y=(y1,y2,y3,…,yn),(xi∈yi)。樣本X可以劃分成X=(x1,x2,x3,…,xn),其中是X的子集,加入的限制條件計(jì)算如下式:
式中:θy是樣本加入限制條件Φc后得到的參數(shù),式(14)是參數(shù)(θ,θy)的期望函數(shù)。
然后在式(14)的基礎(chǔ)上采用MLE的方法對(duì)參數(shù)進(jìn)行估計(jì),得到式(15):
式中:P(l|Xs,y∈Φc,θy)是Xs的后驗(yàn)概率。
依次可以計(jì)算高斯模型的參數(shù)(μi,σi)的估計(jì)值:
根據(jù)式(19)可以很容易的計(jì)算相同指紋的概率分布:
表1是限制聚類的算法描述。
表1 Length-ware算法
通過(guò)Length-ware算法,可以將式(8)變換為式(22):
實(shí)驗(yàn)測(cè)試所需的數(shù)據(jù)集是現(xiàn)實(shí)環(huán)境中通過(guò)Wireshark[11]抓取的網(wǎng)絡(luò)數(shù)據(jù),設(shè)備是2個(gè)安卓系統(tǒng)的智能手機(jī),手機(jī)安裝了包含抖音、快手等視頻類,微博、騰訊體育等新聞?lì)?,QQ、電子郵箱等通信類和美團(tuán)、大眾點(diǎn)評(píng)等生活類的四大類常用軟件,數(shù)據(jù)集的具體值如表2所示。
表2 數(shù)據(jù)集
Background是手機(jī)在靜置狀態(tài)沒(méi)有使用任何應(yīng)用的情況下抓取數(shù)據(jù)包的數(shù)量,主要是系統(tǒng)本身發(fā)送和一些應(yīng)用的消息推送的數(shù)據(jù),從表中可以看出,靜置15 min只獲取935個(gè)數(shù)據(jù)包,與Mix3數(shù)據(jù)集15 min獲取的179 181個(gè)數(shù)據(jù)包相比可以忽略不計(jì),所以可以忽略這部分?jǐn)?shù)據(jù)的影響;Video、News、Communication、Life是手機(jī)分別在只運(yùn)行視頻類、新聞?lì)?、通信類、生活類的軟件采集的流量情況,Mix1、Mix2、Mix3是手機(jī)運(yùn)行所有種類的軟件分別采集5、10、15 min的混合流量。
實(shí)驗(yàn)驗(yàn)證的是本文提出的Length-ware算法,第一部分驗(yàn)證限制聚類對(duì)報(bào)文長(zhǎng)度的聚類效果,運(yùn)用基于Markov過(guò)程的流量分類方法,判斷標(biāo)準(zhǔn)是計(jì)算數(shù)據(jù)流每個(gè)類別的概率相差情況,如果相差較大,則說(shuō)明分類效果較好,反之則較差。然后分析如何衡量按照?qǐng)?bào)文長(zhǎng)度進(jìn)行限制聚類的聚類效果,需要考慮最理想和最差的2種極限情況,如果聚類時(shí),由于一個(gè)應(yīng)用的所有報(bào)文長(zhǎng)度比較相近從而被聚類在同一個(gè)類中,在計(jì)算概率時(shí),各個(gè)類別的概率差異明顯,再次遇到同樣長(zhǎng)度的報(bào)文就能比較快速的確定報(bào)文的類別,這是最理想的情況;而最差的情況是聚類時(shí)由于一個(gè)應(yīng)用的所有報(bào)文長(zhǎng)度比較分散從而被聚類到不同類中,在計(jì)算概率時(shí),各個(gè)類別的概率沒(méi)有明顯差異,所以很難確定報(bào)文的類別,因此從最理想和最差的情況分析,以同一應(yīng)用的報(bào)文盡量在一個(gè)簇里,一個(gè)簇里盡量只包含1種應(yīng)用作為評(píng)判標(biāo)準(zhǔn),當(dāng)然現(xiàn)實(shí)中這2種極限情況都不會(huì)存在,太過(guò)于理想只能存在于假設(shè)中,將這個(gè)評(píng)判標(biāo)準(zhǔn)定義為聚合系數(shù)[12](clustering coefficient,CL_CO),如式(23)所示。
圖5 聚合系數(shù)CL_CO
在最理想和最差的情況下,CL_CO都無(wú)限趨近于0,采集流量的不同決定著最優(yōu)的K值,所以K的取值對(duì)分類結(jié)果也有影響,當(dāng)K的取值在31~35之間時(shí),CL_CO達(dá)到最好。
第2部分實(shí)驗(yàn)驗(yàn)證的是加密流量分類的效果,與同樣基于Markov模型提出的流量分類方法——文獻(xiàn)[5]的MCF算法和文獻(xiàn)[6]的SOM算法作對(duì)比實(shí)驗(yàn),MCF算法僅僅考慮了完整通信過(guò)程的情況,并以報(bào)文類型為主要分析目標(biāo),SOM算法在其基礎(chǔ)上進(jìn)行了改進(jìn),將Certificate的不同長(zhǎng)度作為重要的特征分析。然后采用常見(jiàn)的評(píng)價(jià)指標(biāo)TPR與FPR來(lái)檢驗(yàn)3種算法的分類效果,TPR和FPR分別表示當(dāng)前流量被分到正樣本類別中,真實(shí)的正樣本占所有正樣本的比例及當(dāng)前流量被錯(cuò)誤分到正樣本類別中,真實(shí)的負(fù)樣本占所有負(fù)樣本總數(shù)的比例,如式(24)(25)所示。
式中:TP為真陽(yáng)性,是指屬于正樣本類別的流量被分類成正樣本類別;FN為漏報(bào),是指屬于正樣本類別的流量而被分類成負(fù)樣本類別;FP是誤報(bào),是指負(fù)樣本類別的流量而被分類成為正樣本類別;TN為真陰性,是指負(fù)樣本類別的流量而被分成負(fù)樣本類別。
這里同樣采用數(shù)據(jù)集Mix3作為被測(cè)試的數(shù)據(jù)集,K值選定35,CL_CO相對(duì)較好,然后分別計(jì)算3種算法對(duì)各類應(yīng)用的TPR與FPR情況,如表3所示。
表3 MCF、SOM、Length-ware算法比較
從表3可以分析出,相比其他2種算法,MCF算法由于只考慮了通信建立階段而忽略維持階段的通信行為,因此分類性能明顯較差。SOM算法的分類效果相比MCF算法有一定提升,但相比Length-ware算法仍存在差距,因?yàn)镾OM算法雖然考慮了通信維持階段的通信行為,但除Certificate外其他報(bào)文都被忽略,眾多重要特征也沒(méi)有被提取。從分類結(jié)果可以分析,視頻類由于只發(fā)送視頻,且格式和大小都相對(duì)穩(wěn)定,所以分類效果普遍較好,而新聞?lì)惙诸惽闆r相比其他類普遍較差是由于其包含文字、圖片、視頻等多種類別數(shù)據(jù),因此,由上述分類結(jié)果可以分析,一類應(yīng)用流量行為越單一,其分類效果越好,相反則越差。
實(shí)驗(yàn)選取不同的K值進(jìn)行TPR和FPR,分析其對(duì)分類效果的影響,仍然以Mix3作為被測(cè)試的數(shù)據(jù)集,結(jié)果如圖6所示。
圖6 不同K值的TPR和FPR直方圖
從圖6的結(jié)果分析可知,當(dāng)K=40時(shí),TPR達(dá)到頂峰,F(xiàn)PR達(dá)到低谷,此時(shí)分類效果最好,而K值過(guò)大或者過(guò)小對(duì)分類結(jié)果都有較大的影響,分類效果會(huì)隨著K值的改變而改變,因此,只有選取合適的K值才能達(dá)到最優(yōu)的分類效果。
解決了原有Markov模型中沒(méi)有考慮網(wǎng)絡(luò)通信的狀態(tài)轉(zhuǎn)換的問(wèn)題,提出基于報(bào)文長(zhǎng)度的Length-ware算法,將報(bào)文長(zhǎng)度作為重要的特征分析,通過(guò)GMM對(duì)其建立模型并對(duì)聚類加入限制條件,然后通過(guò)指紋的概率分布完成對(duì)相同指紋的分類。限制聚類時(shí),盡可能將同一應(yīng)用相同IP地址的指紋劃分成一個(gè)簇,提高分類效率。