趙力強(qiáng), 師智斌, 石 瓊, 雷海衛(wèi)
( 中北大學(xué) 大數(shù)據(jù)學(xué)院, 山西 太原 030051)
伴隨互聯(lián)網(wǎng)的迅猛發(fā)展, 網(wǎng)絡(luò)管理以及網(wǎng)絡(luò)安全方面呈現(xiàn)出越來(lái)越高的復(fù)雜性, 給網(wǎng)絡(luò)服務(wù)的高效性和安全性帶來(lái)巨大挑戰(zhàn). 網(wǎng)絡(luò)流量分類作為應(yīng)對(duì)這一難題的有效方法引起了國(guó)內(nèi)外學(xué)者的極大興趣. 近年來(lái), 大量機(jī)器學(xué)習(xí)算法被用來(lái)分類網(wǎng)絡(luò)流量[1-2].
網(wǎng)絡(luò)流量分類領(lǐng)域的機(jī)器學(xué)習(xí)算法分為傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩種[3].
應(yīng)用在流量分類領(lǐng)域的傳統(tǒng)機(jī)器學(xué)習(xí)方法有支持向量機(jī)[4]、 決策樹[5]和貝葉斯[6]等. Moore等[7]設(shè)計(jì)了249個(gè)流量統(tǒng)計(jì)特征, 通過(guò)結(jié)合不同傳統(tǒng)機(jī)器學(xué)習(xí)算法, 實(shí)現(xiàn)了網(wǎng)絡(luò)流量的分類. Shafiq等[8]采用支持向量機(jī)、 C4.5決策樹、 樸素貝葉斯、 貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)了網(wǎng)絡(luò)流量分類. 傳統(tǒng)機(jī)器學(xué)習(xí)的分類效果取決于人工設(shè)計(jì)特征的好壞, 需要大量領(lǐng)域內(nèi)知識(shí), 面對(duì)日益復(fù)雜的流量分類問(wèn)題, 設(shè)計(jì)合適的流量特征變得愈發(fā)困難.
深度學(xué)習(xí)不依賴人工設(shè)計(jì)特征, 通過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行高維特征自主學(xué)習(xí)得到原始數(shù)據(jù)的高維特征表示[9]. 王勇等[3]將Moore數(shù)據(jù)集[7]中的249個(gè)特征歸一化處理后映射成灰度圖片作為輸入, 利用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了流量特征自主學(xué)習(xí)的分類模型. Wang等[10]使用原始流量數(shù)據(jù)作為輸入, 利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)特征自主學(xué)習(xí)的同時(shí)提高了分類的精度. 但是, 深度學(xué)習(xí)方法自主學(xué)習(xí)到的高維特征過(guò)于抽象, 不可解釋, 無(wú)法為網(wǎng)絡(luò)管理者提供更多的決策依據(jù).
網(wǎng)絡(luò)流量作為典型的時(shí)序數(shù)據(jù), 也有研究人員采用基于時(shí)序的方法進(jìn)行分類. Acar等[11]將網(wǎng)絡(luò)流表示為傳輸層數(shù)據(jù)包大小的序列, 利用篩選后的時(shí)序特征結(jié)合多種傳統(tǒng)機(jī)器學(xué)習(xí)算法構(gòu)造最佳分類器, 實(shí)現(xiàn)了網(wǎng)絡(luò)流量分類. Conti等[12]利用傳輸層的數(shù)據(jù)包字節(jié)大小生成3個(gè)時(shí)間序列來(lái)表示流, 將流量分類問(wèn)題抽象為多維時(shí)間序列的分類問(wèn)題. 文獻(xiàn)[13] 中提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量分類方法, 利用LSTM自主學(xué)習(xí)每個(gè)數(shù)據(jù)包的時(shí)序特征以及數(shù)據(jù)包之間的序列關(guān)系來(lái)用于最終分類. 上述基于時(shí)序特性的分類方法仍然不能兼顧特征自主學(xué)習(xí)與可解釋性, 無(wú)法為決策提供必要的依據(jù).
在時(shí)序分類領(lǐng)域, 基于shapelet的時(shí)序分類方法具有可解釋性強(qiáng)、 準(zhǔn)確率高、 可以自主學(xué)習(xí)時(shí)序特征等優(yōu)點(diǎn), 成為近幾年分類研究的熱點(diǎn). shapelet表示在形狀上具有足夠的辨識(shí)度, 是最大程度表征一類時(shí)間序列的子序列. 因此, shapelet可以表示一類時(shí)序數(shù)據(jù)的特征, 具有可解釋優(yōu)點(diǎn), 通過(guò)提取shapelet, 可以進(jìn)一步分析數(shù)據(jù)特點(diǎn), 實(shí)現(xiàn)數(shù)據(jù)深層次理解, 提供優(yōu)質(zhì)決策依據(jù). shapelet最早在文獻(xiàn)[14]中提出, 研究人員遍歷所有子序列后, 利用信息增益選出分類能力最佳的shapelet, 同時(shí)結(jié)合決策樹構(gòu)建了分類器. 初始shapelet算法只能與決策樹結(jié)合構(gòu)建分類器, 針對(duì)這一缺陷, Hills等[15]提出Shapelet-Transform算法, 通過(guò)單次掃描篩選出分類能力最佳的k個(gè)shapelet后, 利用這k個(gè)shapelet作為特征完成時(shí)序數(shù)據(jù)的轉(zhuǎn)化, 轉(zhuǎn)換后的時(shí)序數(shù)據(jù)可以結(jié)合大部分機(jī)器學(xué)習(xí)算法構(gòu)建分類器.
針對(duì)以上研究, 本文提出一種基于時(shí)序特征的網(wǎng)絡(luò)流量分類方法, 引入Shapelet-Transform算法用于挖掘網(wǎng)絡(luò)流量的時(shí)序特征, 同時(shí)改進(jìn)Shapelet-Transform使其可以處理大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù)集. 本文所提方法可以從時(shí)間序列表示的網(wǎng)絡(luò)流量中挖掘出形狀上最具有辨識(shí)度的子序列作為特征, 避免人工設(shè)計(jì)特征的問(wèn)題, 分類精度接近深度學(xué)習(xí)方法, 同時(shí)還可對(duì)分類依據(jù)作進(jìn)一步解釋.
本文希望能夠從流量數(shù)據(jù)中自主學(xué)習(xí)到時(shí)序特征, 因此, 實(shí)驗(yàn)數(shù)據(jù)選擇提供原始流量的USTC-TFC2016數(shù)據(jù)集[13], 共包含10種惡意流量數(shù)據(jù)與10種正常流量數(shù)據(jù), 具體信息如表 1、 表 2 所示.
表 1 惡意流量數(shù)據(jù)集信息Tab.1 Information of malware traffic dataset
表 2 正常流量數(shù)據(jù)集信息Tab.2 Information of normal traffic dataset
網(wǎng)絡(luò)流量按粒度可以分為: TCP連接、 會(huì)話、 流、 服務(wù)和主機(jī)[16]. 其中, 流由五元組(源IP、 目的IP、 源端口、 目的端口、 傳輸層協(xié)議)相同的所有包(packet)組成; 會(huì)話由雙向流的所有包組成, 比單獨(dú)的流包含更多的交互信息[13]. 因此, 本文以會(huì)話為粒度將流量處理為多個(gè)離散單元, 同時(shí)保留會(huì)話中每個(gè)包的所有協(xié)議層次.
進(jìn)一步將會(huì)話表示為由包大小(packet size)組成的等長(zhǎng)時(shí)間序列, 其中包大小以字節(jié)(byte)為單位, 可視化結(jié)果如圖 1、 圖 2 所示. 從圖中可以看出, 將會(huì)話表示為時(shí)間序列后, 不同種類的流量之間表現(xiàn)出較高的區(qū)分度, 同一種流量生成的時(shí)間序列卻明顯相似, 具有很多相似的子序列. 因此表明, 流量數(shù)據(jù), 特別是惡意流量, 帶有豐富的時(shí)序特征, 通過(guò)從表示會(huì)話的流量時(shí)間序列中提取表征時(shí)序特征的子序列, 可以很好地將不同種類的流量區(qū)分開, 實(shí)現(xiàn)網(wǎng)絡(luò)流量分類.
本文所提方法對(duì)網(wǎng)絡(luò)流量進(jìn)行分類的核心思想是先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理, 然后基于Shapelet-Transform算法自主學(xué)習(xí)其時(shí)序特征, 同時(shí)利用學(xué)習(xí)到的時(shí)序特征將預(yù)處理后的流量數(shù)據(jù)轉(zhuǎn)化為特征向量, 結(jié)合支持向量機(jī)(SVM)構(gòu)造分類器完成分類. 整體架構(gòu)如圖 3 所示.
圖 3 基于時(shí)序特征的網(wǎng)絡(luò)流量分類方法架構(gòu)Fig.3 Framework of the network traffic classification method based on time series features
針對(duì)Shapelet-Transform算法能夠從時(shí)間序列中挖掘出最具有代表性的子序列(shapelet)的特點(diǎn), 設(shè)計(jì)了流量數(shù)據(jù)預(yù)處理流程. 將數(shù)據(jù)集中原始流量數(shù)據(jù)(pcap格式)經(jīng)過(guò)流量切分、 時(shí)序數(shù)據(jù)生成、 統(tǒng)一長(zhǎng)度等步驟處理為等長(zhǎng)時(shí)間序列的集合.
步驟1: 以會(huì)話即雙向流為流量粒度, 借助SplitCap工具實(shí)現(xiàn)每一類流量的切分并且保留包的所有協(xié)議層次.
步驟2: 提取會(huì)話中的包大小構(gòu)建時(shí)序數(shù)據(jù), 以字節(jié)為單位解析會(huì)話, 獲取包大小, 組成時(shí)間序列.
步驟3: 每個(gè)會(huì)話中的包數(shù)量并不完全相同, 需要統(tǒng)一時(shí)間序列長(zhǎng)度. 由于隨著輸入序列長(zhǎng)度的增加, 計(jì)算量會(huì)呈指數(shù)級(jí)增長(zhǎng), 因此, 綜合考慮分類精度與計(jì)算用時(shí), 確定時(shí)間序列長(zhǎng)度為40. 如果序列長(zhǎng)度大于40則截取, 小于40則在其后用0補(bǔ)充, 統(tǒng)一長(zhǎng)度后的時(shí)間序列連同其類別一起作為Shapelet-Transform的輸入數(shù)據(jù). 這與文獻(xiàn)[3]和文獻(xiàn)[13]中確定輸入數(shù)據(jù)形式的思路類似.
基于Shapelet-Transform算法挖掘網(wǎng)絡(luò)流量的時(shí)序特征分為三個(gè)階段. 第一階段: 單次掃描挖掘出分類能力最強(qiáng)的k個(gè)shapelet作為時(shí)序特征; 第二階段: 通過(guò)聚類去掉k個(gè)時(shí)序特征中相似的部分; 第三階段: 利用聚類優(yōu)化后的特征集合完成時(shí)序數(shù)據(jù)的轉(zhuǎn)化.
2.2.1 最佳的k個(gè)時(shí)序特征的挖掘
第一階段主要分為三個(gè)部分: 生成候選shapelet集合、 相似度測(cè)量、 shapelet分類能力評(píng)估. 第一階段結(jié)束后, 可以得到包含k個(gè)分類能力最強(qiáng)的shapelet的時(shí)序特征集合.
預(yù)處理后的網(wǎng)絡(luò)流量時(shí)序數(shù)據(jù)集為T={T1,T2,…,Tn}, 每一個(gè)Ti對(duì)應(yīng)一個(gè)類標(biāo)簽ci.第一階段的具體過(guò)程如算法1所示.
算法 1挖掘最佳的k個(gè)shapelet
輸入: 時(shí)序數(shù)據(jù)集T, 候選shapelet的最小長(zhǎng)度min, 最大長(zhǎng)度max, 要保留的shapelet數(shù)目k
輸出:k個(gè)shapelet
1)kShapelets←?
2) for allTiinTdo
3) shapelets←?
4) forl←min to max do
5)Wi,l←generateCandidates(Ti,l)
6) for all subsequenceSinWi,ldo
7)Ds←findDistances(S,T)
8) quality←assessCandidates(S,Ds)
9) shapelets.add(S, quality)
10) sortByQuality(shapelets)
11) removeSelfSimilar(shapelets)
12)kShapelets←merge(k,kShapelets, shapelets)
13) returnkShapelets
算法1中第2~5行表示生成候選shapelet集合, 利用不同長(zhǎng)度的滑動(dòng)窗口遍歷時(shí)間序列Ti, 從而找到長(zhǎng)度在min和max之間的所有子序列. 第7行針對(duì)每一個(gè)候選shapelet進(jìn)行相似度測(cè)量, 即計(jì)算長(zhǎng)度為l的shapelet與T中每一個(gè)Ti之間的距離, 具體的公式為
(1)
式中:Wi,l為Ti中所有長(zhǎng)度為l的子序列集合,dist函數(shù)為求解兩個(gè)等長(zhǎng)時(shí)間序列間歐式距離的公式.通過(guò)相似度測(cè)量可以得到一個(gè)距離列表Dshapelet=〈ds,1,ds,2,…,ds,n〉,ds,i表示該shapelet和Ti之間的距離.
第8行評(píng)估每一個(gè)候選shapelet的分類能力. Shapelet-Transform算法引入F-statistic(F統(tǒng)計(jì)量)作為shapelet分類能力評(píng)估標(biāo)準(zhǔn), 公式為
(2)
第11行針對(duì)來(lái)自同一Ti的shapelet集合, 去掉了其中自相似的部分. 第13行返回了時(shí)序數(shù)據(jù)集T中分類能力最強(qiáng)的k個(gè)shapelet.
算法1可以挖掘出分類能力最佳的k個(gè)shapelet作為時(shí)序特征, 但需要大量計(jì)算, 超出了CPU計(jì)算模式的處理能力. 因此, 本文在2.3節(jié)改寫算法1的計(jì)算邏輯, 利用GPU縮短運(yùn)算時(shí)間. 由于算法1并未考慮來(lái)自不同Ti的shapelet可能存在相似的情況, 所以仍需對(duì)時(shí)序特征集進(jìn)行聚類, 去掉其中相似的部分.
2.2.2 時(shí)序特征集聚類
第一階段得到的時(shí)序特征集中, 可能存在多個(gè)shapelet彼此相似, 需要對(duì)shapelet集合聚類, 去掉其中相似的shapelet. 在時(shí)序特征集中, 參照式(1) 計(jì)算shapelet之間的相似度, 構(gòu)建k×k相似矩陣. 將相似度最高的兩個(gè)shapelet歸為一類, 只保留其中分類能力評(píng)估值更高的shapelet. 重復(fù)上述操作, 直到剩下的shapelet集合滿足預(yù)先設(shè)定的停止條件. 聚類后, 只保留10個(gè)shapelet, 在第三階段用這10個(gè)shapelet完成時(shí)序數(shù)據(jù)集的轉(zhuǎn)化.
2.2.3 網(wǎng)絡(luò)流量時(shí)序數(shù)據(jù)集轉(zhuǎn)化
經(jīng)過(guò)聚類后的shapelet集合為S=〈s1,s2,…,s10〉, 其中,sj表示第j個(gè)shapelet,j=1,2,…,10.利用集合S可以將時(shí)序數(shù)據(jù)集T中的每一個(gè)Ti轉(zhuǎn)化為特征向量Ti-transform=〈ds1,Ti,ds2,Ti,…,ds10,Ti〉, 其中,dsj,Ti表示Ti與sj之間的距離值, 由式(1)可得.時(shí)序數(shù)據(jù)集T經(jīng)過(guò)轉(zhuǎn)化后, 符合大部分機(jī)器學(xué)習(xí)方法的輸入要求.
算法1計(jì)算時(shí)間較長(zhǎng), 無(wú)法處理大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù), 因此本文引入GPU加速計(jì)算過(guò)程. GPU包含很多獨(dú)立的計(jì)算核心, 可以并行處理大量簡(jiǎn)單計(jì)算, 但GPU的計(jì)算邏輯與CPU有著本質(zhì)區(qū)別, 需要重新設(shè)計(jì)算法1, 將其中的循環(huán)結(jié)構(gòu)改為流式處理的矩陣運(yùn)算. 具體過(guò)程如算法2所示.
算法 2基于GPU挖掘最佳k個(gè)shapelet
輸入: 時(shí)序數(shù)據(jù)集T, 候選shapelet的最小長(zhǎng)度min, 最大長(zhǎng)度max, 要保留的shapelet數(shù)目k
輸出:k個(gè)shapelet
1)kShapelets←?
2) candidatesAll= cut(T, min, max )
3) for allTiinTdo
4) shapelet←?
5)D←?
6) Stream=StreamDesign(candidatesAll, min, max,Ti)
7) for all streamjin Stream do
8)Dtemp= GPU_calculate(streamj)
9)D.add(Dtemp)
10) quality←assessCandidaates(candidatesTi,D)
11) shapelets.add(candidatesTi, quality)
12) sortByQuality(shapelets)
13) removeSelfSimilar(shapelets)
14)kShapelets←merge(k,kShapelet,shapelets)
15) returnkShapelets
算法2中第2行得到不同長(zhǎng)度的候選shapelet, 保存在多維矩陣candidatesAll中. 第6行針對(duì)每個(gè)Ti設(shè)計(jì)流式處理結(jié)構(gòu). 第7~8行替代了算法1中第4~7行實(shí)際運(yùn)行時(shí)的循環(huán)結(jié)構(gòu), 流式處理了Ti中所有候選shapelet的相似度測(cè)量. 第10行整體評(píng)估了Ti中的候選shapelet.
為了測(cè)試基于GPU改進(jìn)算法的效果, 本文對(duì)整個(gè)訓(xùn)練數(shù)據(jù)集以及隨機(jī)選取的1 000條網(wǎng)絡(luò)流量數(shù)據(jù)預(yù)處理后, 分別利用算法1與算法2進(jìn)行時(shí)序特征挖掘, 實(shí)驗(yàn)結(jié)果如表 3 所示.
表 3 兩種算法計(jì)算用時(shí)對(duì)比Tab. 3 Comparison of calculation time with two algorithms
實(shí)驗(yàn)結(jié)果證明, 本文所提優(yōu)化方法大幅度縮減了計(jì)算用時(shí). 盡管時(shí)序特征挖掘可以離線進(jìn)行, 并不影響分類的速度, 但是算法1在處理大規(guī)模數(shù)據(jù)集時(shí)耗時(shí)過(guò)長(zhǎng), 因此對(duì)其進(jìn)行改進(jìn)是必要的.
本文基于SVM構(gòu)造2分類器和10分類器, 2分類器用于分類正常流量和惡意流量; 10分類器實(shí)現(xiàn)普通流量10分類和惡意流量10分類.
10分類器基于one-against-all[17]實(shí)現(xiàn). 構(gòu)造10個(gè)SVM二分類模型后, 依次將訓(xùn)練集中的每一種流量作為正樣本, 其余流量作為負(fù)樣本, 利用本文方法從不同的正負(fù)樣本中自主學(xué)習(xí)更適合的特征用于訓(xùn)練分類模型.
以惡意流量10分類器訓(xùn)練為例, 其訓(xùn)練流程如圖 4 所示. 首先將惡意流量訓(xùn)練集中的Virut類流量標(biāo)記為正樣本, 其他9類惡意流量標(biāo)記為負(fù)樣本. 然后利用本文方法從正負(fù)樣本中自主學(xué)習(xí)10個(gè)最佳的時(shí)序特征來(lái)完成訓(xùn)練集的轉(zhuǎn)化, 利用轉(zhuǎn)化后的數(shù)據(jù)集訓(xùn)練SVM分類模型. 依此類推, 直至10個(gè)分類模型訓(xùn)練完畢.
圖 4 多分類器訓(xùn)練流程Fig.4 Training process of multiple classifiers
為了驗(yàn)證本文方法的可行性, 在USTC-TFC2016數(shù)據(jù)集[13]上實(shí)驗(yàn)了所提算法, 數(shù)據(jù)集總大小為3.71 GB, 隨機(jī)選取9/10作為訓(xùn)練數(shù)據(jù), 剩余1/10作為測(cè)試數(shù)據(jù). 其它實(shí)驗(yàn)環(huán)境參數(shù)如表 4 所示.
表 4 實(shí)驗(yàn)環(huán)境參數(shù)Tab.4 Parameters of experimental environment
根據(jù)評(píng)價(jià)指標(biāo)的各個(gè)參數(shù)進(jìn)行實(shí)驗(yàn), 具體實(shí)驗(yàn)結(jié)果和文獻(xiàn)[13]中基于深度學(xué)習(xí)的方法進(jìn)行對(duì)比, 結(jié)果如表 5~表 7 所示.
表 5 不同分類器的整體準(zhǔn)確率Tab.5 Overall accuracy of different classifiers %
實(shí)驗(yàn)結(jié)果表明, 本文設(shè)計(jì)的2分類器的準(zhǔn)確率較高, 10分類器的準(zhǔn)確率接近深度學(xué)習(xí)方法. 相較于深度學(xué)習(xí)的黑盒屬性使其結(jié)果不可解釋, 本文方法在分類精度接近深度學(xué)習(xí)的情況下可以解釋分類過(guò)程的識(shí)別依據(jù), 可以用于進(jìn)一步分析流量特性. 以下從兩個(gè)方面進(jìn)行分析.
表 6 正常流量10分類的類準(zhǔn)確率和類可信度Tab.6 Class accuracy and class reliability of normal traffic 10 classification
表 7 惡意流量10分類的類準(zhǔn)確率和類可信度Tab.7 Class accuracy and class reliability of malwaretraffic 10 classification
1) 時(shí)序特征解釋
以惡意流量10分類器為例, 在Miuref類數(shù)據(jù)為正樣本, 其余為負(fù)樣本的SVM模型中, 所提方法從正負(fù)樣本中共挖掘出10個(gè)適合的shapelet作為分類特征, 對(duì)來(lái)自Miuref類的2個(gè)shapelet和隨機(jī)選取的2個(gè)來(lái)自其他類的shapelet可視化, 將其表示在一條Miuref流量上, 如圖 5 所示, 其中, shapelet1和shapelet2屬于Miuref類, shapelet3和shapelet4屬于其他類.
圖 5 shapelet可視化Fig.5 Visualization of shapelets
從圖 5 可以看出, shapelet1、 shapelet2和Miuref類流量的某些子序列相似度很高, 而shapelet3、 shapelet4則與該類流量明顯不同. 利用這些shapelet對(duì)數(shù)據(jù)集進(jìn)行轉(zhuǎn)化, 可以得到區(qū)分度很高的特征向量, 使用SVM模型可以很好地將Miuref類和其他類流量區(qū)分開.
2) 流量特性分析
以惡意流量Htbot為例, Htbot是一種木馬網(wǎng)絡(luò), 可以通過(guò)一種隱蔽的方式控制計(jì)算機(jī)并進(jìn)行遠(yuǎn)程訪問(wèn). 本文從正樣本為Htbot類, 其余類別為負(fù)樣本的訓(xùn)練集中, 自主學(xué)習(xí)到10個(gè)shapelet作為分類特征, 其中有2個(gè)來(lái)自于Htbot類, 將其可視化表示在隨機(jī)選取的一條Htbot流量上, 如圖 6 所示.
圖 6 Htbot類流量shapelet可視化Fig.6 Visualization of Htbot shapelets
圖 6 中橫坐標(biāo)軸8~14之間的shapelet2表示了該類流量的某種特殊的包大小變化方式, 其中, 第10個(gè), 第11個(gè)包大小超過(guò)1 400字節(jié), 進(jìn)一步分析流量數(shù)據(jù)可以發(fā)現(xiàn), 這是Htbot的病毒主機(jī)在向宿主機(jī)傳遞指令. 本文方法可以很好地挖掘出這一特性, 提供給網(wǎng)絡(luò)管理者關(guān)于Htbot流量的更多細(xì)節(jié).
本文首先分別介紹了基于傳統(tǒng)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的網(wǎng)絡(luò)流量分類方法, 然后在相關(guān)研究的基礎(chǔ)上, 提出了一種基于時(shí)序特征的分類方法, 首次引入Shapelet-Transform用于自主學(xué)習(xí)可解釋的網(wǎng)絡(luò)流量時(shí)序特征, 同時(shí)重新設(shè)計(jì)算法計(jì)算邏輯將其部署在GPU上, 進(jìn)而可以處理大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù), 并結(jié)合SVM構(gòu)造最優(yōu)分類模型, 最終實(shí)現(xiàn)網(wǎng)絡(luò)流量分類. 為了驗(yàn)證分類方法的可行性, 利用現(xiàn)有數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析, 將原始流量數(shù)據(jù)輸入所提方法中, 可以自主學(xué)習(xí)到可解釋的時(shí)序特征, 同時(shí)得到較高的分類精度. 在將來(lái)的工作中將針對(duì)以下幾個(gè)方面做進(jìn)一步研究: 1)探討更多網(wǎng)絡(luò)流量可能的時(shí)序表達(dá)方式; 2)針對(duì)Shapelet-Transform算法做進(jìn)一步優(yōu)化, 加速運(yùn)算; 3)將本文所提方法部署在大數(shù)據(jù)平臺(tái)之上用于實(shí)時(shí)處理大規(guī)模網(wǎng)絡(luò)流量分類問(wèn)題.