黃璇麗 李成明 姜青山
1(中國科學(xué)院深圳先進(jìn)技術(shù)研究院 深圳 518055)
2(中國科學(xué)院大學(xué)深圳先進(jìn)技術(shù)學(xué)院 深圳 518055)
網(wǎng)絡(luò)入侵檢測系統(tǒng)(Network-based Intrusion Detection System,NIDS)相關(guān)技術(shù)在萬物互聯(lián)的時代是不可或缺的,也是網(wǎng)絡(luò)信息安全中一個重要的研究領(lǐng)域。入侵檢測系統(tǒng)包括主機(jī)入侵檢測系統(tǒng)和網(wǎng)絡(luò)入侵檢測系統(tǒng)。其中,網(wǎng)絡(luò)入侵檢測系統(tǒng)通過對網(wǎng)絡(luò)上的流量進(jìn)行監(jiān)控,并實(shí)時對異常流量發(fā)出預(yù)警,從而提高網(wǎng)絡(luò)的安全性[1]。
網(wǎng)絡(luò)流量分析是網(wǎng)絡(luò)異常檢測的重要方法,傳統(tǒng)的檢測方法包含基于規(guī)則和基于特征工程的方法[2]。其中,基于規(guī)則的檢測方法需要網(wǎng)絡(luò)安全專家針對已有入侵行為,生成對應(yīng)的規(guī)則進(jìn)行匹配檢測,不具備檢測新的入侵行為的能力。基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法需要特征工程等人為地構(gòu)造特征,然后訓(xùn)練機(jī)器學(xué)習(xí)模型,模型的效果很大程度上取決于特征工程的質(zhì)量[3]。目前,深度學(xué)習(xí)已在計(jì)算機(jī)視覺、自然語言處理、推薦系統(tǒng)、網(wǎng)絡(luò)流量異常檢測等領(lǐng)域廣泛應(yīng)用[4-5]。然而,已有的基于深度學(xué)習(xí)網(wǎng)絡(luò)流量異常檢測方法,只是針對網(wǎng)絡(luò)流單一的時序特征或空間特征進(jìn)行了提取,缺少對網(wǎng)絡(luò)流量時空特征的綜合表示。
原始的網(wǎng)絡(luò)流量是由按照網(wǎng)絡(luò)協(xié)議規(guī)定格式的一串字節(jié)組成的。多個流量字節(jié)組合成一個數(shù)據(jù)包,通信雙方的多個數(shù)據(jù)包則組成一個網(wǎng)絡(luò)流[1]。其中,數(shù)據(jù)包以一個整體同時在網(wǎng)絡(luò)上傳輸,故其內(nèi)部的流量字節(jié)沒有太多的時序關(guān)系,但字節(jié)間被認(rèn)為存在著空間關(guān)系,可提取其相應(yīng)的空間特征。而網(wǎng)絡(luò)流中的每個數(shù)據(jù)包有不同的發(fā)送時間,被認(rèn)為存在時序關(guān)系,可提取其相應(yīng)的時序特征。因此,空間特征和時序特征是網(wǎng)絡(luò)流量監(jiān)測領(lǐng)域常用的兩類流量特征[1-2]。
針對網(wǎng)絡(luò)流所具有的時空特征,本文提出一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)字節(jié)流數(shù)據(jù)時空特征提取方法。其中,采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取網(wǎng)絡(luò)流量的空間特征,采用循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取網(wǎng)絡(luò)流量的時序特征。本文研究的基本單元是網(wǎng)絡(luò)流,對于原始網(wǎng)絡(luò)軌跡流量,需將其切分為以網(wǎng)絡(luò)流為單位的數(shù)據(jù)集。其中,每一條網(wǎng)絡(luò)流包含一組雙方通信的數(shù)據(jù)包,每個數(shù)據(jù)包包含一組字節(jié)(大小為 0~255)。實(shí)驗(yàn)使用的數(shù)據(jù)集是 MAWILab 網(wǎng)絡(luò)軌跡數(shù)據(jù)集,并將原始的網(wǎng)絡(luò)軌跡流量切分為以網(wǎng)絡(luò)流為單位的數(shù)據(jù)集合,結(jié)合日志文件生成帶標(biāo)簽的網(wǎng)絡(luò)字節(jié)流數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,本文所提出的網(wǎng)絡(luò)流時空特征提取方法優(yōu)于已有的深度表示學(xué)習(xí)方法。
國內(nèi)外研究學(xué)者對網(wǎng)絡(luò)流量分析的問題研究了近二十年,已有許多網(wǎng)絡(luò)入侵檢測相關(guān)的研究工作[2]。入侵檢測系統(tǒng)應(yīng)用廣泛,常應(yīng)用于工業(yè)系統(tǒng)、運(yùn)輸系統(tǒng)、醫(yī)療系統(tǒng)和建筑系統(tǒng)[4-5]。根據(jù) Ahmed 等[6]的研究成果,網(wǎng)絡(luò)流量異常檢測方法可以分為四種:基于分類、基于統(tǒng)計(jì)、基于聚類和基于信息論。Chalapathy 等[5]研究重點(diǎn)為如何使用深度學(xué)習(xí)技術(shù)進(jìn)行異常檢測,其中包括將深度學(xué)習(xí)技術(shù)應(yīng)用到主機(jī)入侵檢測和網(wǎng)絡(luò)入侵檢測中。針對現(xiàn)有檢測方法嚴(yán)重依賴人工制定規(guī)則、人工收集標(biāo)簽的問題,Nisioti 等[7]對無監(jiān)督的網(wǎng)絡(luò)流量異常檢測進(jìn)行了研究。此外,由于對抗機(jī)器學(xué)習(xí)的興起,也有一些學(xué)者將其應(yīng)用到入侵檢測系統(tǒng)攻擊相關(guān)的研究工作[8-9]。網(wǎng)絡(luò)流量檢測通常劃分為基于規(guī)則、基于特征工程和基于特征學(xué)習(xí) 3 種方法,如圖 1 所示。
圖 1 網(wǎng)絡(luò)流量檢測方法分類Fig. 1 Categories of network traffic detection techniques
基于規(guī)則的網(wǎng)絡(luò)流量檢測方法主要包括:基于 DPI(Deep Packet Inspection)和基于端口[10]。對先前的網(wǎng)絡(luò)流量人工制定規(guī)則,通過匹配規(guī)則來檢測已出現(xiàn)的異常。該方法只能檢測已出現(xiàn)過的網(wǎng)絡(luò)異常,對沒有出現(xiàn)過的異常難以檢測;同時制定規(guī)則需要很多的人力資源,人力成本極高,無法適用于當(dāng)前網(wǎng)絡(luò)的急速發(fā)展。
基于特征工程的網(wǎng)絡(luò)流量檢測方法分兩步:(1)使用特征工程進(jìn)行特征組合、特征選擇等構(gòu)造特征集;(2)基于特征集使用傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型進(jìn)行檢測。其中,常用的網(wǎng)絡(luò)流量特征有數(shù)據(jù)包個數(shù)、網(wǎng)絡(luò)應(yīng)用層協(xié)議和網(wǎng)絡(luò)流量長度等統(tǒng)計(jì)特征和類別;常用的機(jī)器學(xué)習(xí)方法有線性回歸、邏輯回歸、決策樹、隨機(jī)森林、支持向量機(jī)和多層感知機(jī)等[11]。Aygun 和 Yavuz[12]使用自動編解碼器進(jìn)行流量檢測?;诋惓z測進(jìn)行入侵檢測的工作也有不少,如 An 和 Cho[13]使用變分自動編碼器進(jìn)行異常檢測;Intrator 等[14]使用多個判別器的對抗生成網(wǎng)絡(luò)(GAN)進(jìn)行異常檢測;Zhou 和 Paffenroth[15]使用魯棒深度自動編碼器去噪,再進(jìn)行異常檢測;Zhao 等[16]和 Lin 等[17]分別采用降維和聚類等無監(jiān)督方法進(jìn)行入侵檢測?;谔卣鞴こ痰姆椒ǔS玫幕鶞?zhǔn)數(shù)據(jù)集有 KDD99 和 NSL-KDD 等,這類方法的檢測效果依賴特征工程的質(zhì)量,需要人工經(jīng)驗(yàn)和特征工程技巧,在網(wǎng)絡(luò)互聯(lián)和大數(shù)據(jù)時代無法適用。
基于深度特征學(xué)習(xí)的網(wǎng)絡(luò)流量檢測方法,需要使用深度特征學(xué)習(xí)模型進(jìn)行自動地提取特征。網(wǎng)絡(luò)檢測的基本單元是網(wǎng)絡(luò)流,而網(wǎng)絡(luò)流量底層歸根到底是一串字節(jié)。依照網(wǎng)絡(luò)協(xié)議規(guī)定,將流量字節(jié)組合成數(shù)據(jù)包,數(shù)據(jù)包再組成網(wǎng)絡(luò)流,其中,數(shù)據(jù)包里的字節(jié)間存在著空間關(guān)系,而網(wǎng)絡(luò)流中的每個數(shù)據(jù)包間又存在時序關(guān)系。針對原始的網(wǎng)絡(luò)流量,構(gòu)建合適的深度特征學(xué)習(xí)模型,即可學(xué)習(xí)網(wǎng)絡(luò)流量的時間特征和空間特征。Wang 等[18-19]使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)空間特征分別進(jìn)行加密流量分類和惡意流量分類相關(guān)的流量檢測研究;Mirza 等[20]和 Shiravi 等[21]對原始流量數(shù)據(jù) ISCX IDS 2012,建立循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)以提高檢測性能。
基于深度特征學(xué)習(xí)的網(wǎng)絡(luò)流量檢測方法通過深度特征學(xué)習(xí)模型進(jìn)行自動地提取特征,再使用提取的特征進(jìn)行檢測?;谏疃葘W(xué)習(xí)的特征提取方法主要包括卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可有效提取網(wǎng)絡(luò)流量時空特征。
按照網(wǎng)絡(luò)協(xié)議的規(guī)定,多個字節(jié)組成數(shù)據(jù)包,通信雙方的數(shù)據(jù)包組成網(wǎng)絡(luò)流,網(wǎng)絡(luò)流攜帶著數(shù)據(jù)在不同的計(jì)算機(jī)之間傳輸,字節(jié)就是網(wǎng)絡(luò)流量的原始形態(tài)。網(wǎng)絡(luò)流(flow)、數(shù)據(jù)包(packet)和字節(jié)(byte)數(shù)據(jù)的層次關(guān)系如圖 2 所示。
圖 2 網(wǎng)絡(luò)流的層次關(guān)系圖Fig. 2 The hierarchy of network traffic flow
原始的網(wǎng)絡(luò)軌跡是由一串字節(jié)組成的,網(wǎng)絡(luò)流是網(wǎng)絡(luò)流量檢測的基本單位。圖 3 所示為某個網(wǎng)絡(luò)流樣例:該條網(wǎng)絡(luò)流由 30 個數(shù)據(jù)包組成,一個數(shù)據(jù)包由多個字節(jié)組成。
一個網(wǎng)絡(luò)流樣本由網(wǎng)絡(luò)流的字節(jié)向量和標(biāo)簽組成,其樣本集合 D 的表達(dá)如公式(1)所示。
從網(wǎng)絡(luò)流的層次結(jié)構(gòu)可知,數(shù)據(jù)包之間存在著顯著的時序特征,數(shù)據(jù)包內(nèi)的字節(jié)被認(rèn)為存在著空間特征。因此,本文設(shè)計(jì)了如圖 4 所示的特征提取方法,其中輸入為網(wǎng)絡(luò)流字節(jié)向量(flow bytes vector),包含卷積層(conv1 和 conv2)、最大池化層(maxpool1 和 maxpool2)、全連接層(Full Connection,F(xiàn)C)、長短期記憶(Long-Short Term Memory,LSTM)和 softmax 層,其主要的流程分為以下 3 步。
(1)網(wǎng)絡(luò)流量空間特征學(xué)習(xí)過程:由于卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)每個數(shù)據(jù)包內(nèi)的空間特征,故本文采用卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)原始流量的空間特征。該網(wǎng)絡(luò)結(jié)構(gòu)使用兩層卷積層和兩層最大池化層,可學(xué)習(xí)到網(wǎng)絡(luò)流量數(shù)據(jù)的局部特征,輸出為空間特征表示 h1,之后將其應(yīng)用于網(wǎng)絡(luò)的深層結(jié)構(gòu)以學(xué)習(xí)更多的全局特征。
(2)網(wǎng)絡(luò)流量時序特征學(xué)習(xí)過程:對于步驟(1)中得到的空間特征表示 h1,由網(wǎng)絡(luò)流量的內(nèi)部層次結(jié)構(gòu)可知存在著時序特征。本文采用一個 LSTM 網(wǎng)絡(luò)來進(jìn)一步學(xué)習(xí)原始流量的時序特征,該網(wǎng)絡(luò)結(jié)構(gòu)使用兩層隱藏層,輸出為時空特征表示 h2。
圖 3 網(wǎng)絡(luò)流樣例圖Fig. 3 Network traffic flow sample
(3)網(wǎng)絡(luò)流量檢測過程:對于經(jīng)過步驟(1)和(2)得到的網(wǎng)絡(luò)流時空特征表示 h2,設(shè)計(jì)一個全連接層和輸出層,使用 softmax 分類器進(jìn)行分類檢測,輸出網(wǎng)絡(luò)流所屬類別的預(yù)測概率。
網(wǎng)絡(luò)流量的內(nèi)部結(jié)構(gòu)揭示其存在著的時序特征和空間特征。本文中,需先將原始網(wǎng)絡(luò)流量的字節(jié)流向量變形成大小為 n×n×channels 的張量,再作為時空特征提取網(wǎng)絡(luò)的輸入。其中,channels 取 1。圖 4 所示為本文方法的詳細(xì)框架圖。
3.2.1 空間特征提取網(wǎng)絡(luò)結(jié)構(gòu)
由于卷積神經(jīng)網(wǎng)絡(luò)具有空間特征學(xué)習(xí)的能力,常應(yīng)用于計(jì)算機(jī)視覺等相關(guān)領(lǐng)域?,F(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)通常包括輸入層、卷積層、池化層、全連接層和輸出層,其稀疏連接和參數(shù)共享的獨(dú)特訓(xùn)練方式是該網(wǎng)絡(luò)的最大優(yōu)勢[22-23]。其中,卷積層和池化層的設(shè)計(jì)極為關(guān)鍵,通常底層結(jié)構(gòu)學(xué)習(xí)數(shù)據(jù)的局部特征,而網(wǎng)絡(luò)的深層結(jié)構(gòu)則能得學(xué)到全局特征。
本文中采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來提取網(wǎng)絡(luò)流量的局部空間特征。該網(wǎng)絡(luò)結(jié)構(gòu)含有兩層卷積層,第一層卷積層使用 32 個卷積濾波器(大小為 5×5、步長為 1)作用于局部區(qū)域,學(xué)習(xí)局部特征。給定一個大小為 d×d×channels 的張量作為輸入,得到的輸出張量大小為(d-4)×(d-4)×(channels×32)。第二層卷積層使用 64 個卷積濾波器,大小為 3×3,步長為 1。給定一個大小為 d×d×channels 的張量作為輸入,得到的輸出張量大小為(d-2)×(d-2)×(channels×64)。
假設(shè)輸入層是大小為 d×d×channels 的張量,其卷積操作如公式(2)所示。
圖 4 網(wǎng)絡(luò)字節(jié)流數(shù)據(jù)時空特征提取方法Fig.4 Spatio-temporal features extraction method for network traffic flow
3.2.2 時序特征提取網(wǎng)絡(luò)結(jié)構(gòu)
循環(huán)神經(jīng)網(wǎng)絡(luò)常用于時間序列相關(guān)的任務(wù)中,常用的變種有 LSTM 和 GRU(門控循環(huán)單元)。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是前饋的,即每一層節(jié)點(diǎn)之間沒有聯(lián)系,而循環(huán)神經(jīng)網(wǎng)絡(luò)每一層的參數(shù)是共享的,即當(dāng)前層的輸出不僅要考慮上一層的輸出,而且還要考慮上一時刻隱藏層的輸出[19,24]。因此,隱藏層更新公式如下所示:
其中,W 為 t-1 時刻到 t 時刻的參數(shù)矩陣;U 為輸入層到當(dāng)前層的參數(shù)矩陣,是共享的;f 為激活函數(shù)。但這種簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)存在梯度消失、梯度爆炸和難以訓(xùn)練的問題[20]。LSTM 是循環(huán)神經(jīng)網(wǎng)絡(luò)中成功的擴(kuò)展之一,能有效解決以上的問題,其引入了輸入門、遺忘門和輸出門,還有記憶單元。LSTM 隱藏層更新公式如下所示:
實(shí)驗(yàn)驗(yàn)證采用的數(shù)據(jù)集來源于 MAWILab 開放數(shù)據(jù)[25]。MAWILab 數(shù)據(jù)集每天收集日本和美國兩個服務(wù)商節(jié)點(diǎn)之間在 14∶00—14∶15 期間 15 min 的網(wǎng)絡(luò)流量,并提供日志文件。流量的標(biāo)簽有 anomalous、suspicious、notice 和 benign 四種,分別代表異常流量、可疑流量、通知過的流量和正常流量。
有許多研究者使用 MAWILab 進(jìn)行網(wǎng)絡(luò)流量檢測研究,如 Kwon 等[26]通過提取 MAWILab 中網(wǎng)絡(luò)協(xié)議等相關(guān)字段,人工構(gòu)造特征后使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測;Siffer 等[27]使用極值理論進(jìn)行檢測異常流量。本文提出的是網(wǎng)絡(luò)字節(jié)流數(shù)據(jù)時空特征提取方法,對 MAWILab 原始網(wǎng)絡(luò)流量數(shù)據(jù)處理的流程如圖 5 所示。
圖 5 關(guān)于 MAWILab 網(wǎng)絡(luò)軌跡數(shù)據(jù)的原始流量處理流程圖Fig. 5 Data processing of MAWILab network traces
本文選取了 2019 年 6 月 15 天的網(wǎng)絡(luò)流量,每天采樣約 1 萬條網(wǎng)絡(luò)流,其中各類別的網(wǎng)絡(luò)流數(shù)量如表 1 所示。對于每一天的網(wǎng)絡(luò)流量,MAWILab 提供了 .pcap 軌跡文件、_notice.csv 和 _anomalous_suspicious.csv 日志文件[24]。由于網(wǎng)絡(luò)檢測的基本單位是網(wǎng)絡(luò)流,需先將 .pcap 文件中的原始網(wǎng)絡(luò)軌跡切為網(wǎng)絡(luò)流,其中每個網(wǎng)絡(luò)流對應(yīng)一個 .pcap 文件;然后,根據(jù)源 IP、端 IP、源端口、端端口四元組(srcIP, dstIP, srcPort, dstPort),在日志文件中檢索對應(yīng)的標(biāo)簽。
表 1 MAWILab 數(shù)據(jù)集(2019 年 6 月)網(wǎng)絡(luò)流數(shù)據(jù)描述Table 1 Description of MAWILab network traffic flows (June, 2019)
本文使用表 1 的數(shù)據(jù)進(jìn)行檢測分析,實(shí)驗(yàn)數(shù)據(jù)的網(wǎng)絡(luò)流長度(即特征維度)有 2 種:784 維和 1 600 維。評價(jià)指標(biāo)為準(zhǔn)確率、帶權(quán)重的 F1 值、帶權(quán)重的召回率和帶權(quán)重的精準(zhǔn)率。訓(xùn)練網(wǎng)絡(luò)字節(jié)流時空特征提取方法時,將數(shù)據(jù)集以 8∶2 的比例劃分訓(xùn)練集和測試集,實(shí)驗(yàn)展示的結(jié)果為測試集上的檢測結(jié)果。
圖 6 和圖 7 分別是訓(xùn)練 10 次的損失圖和效果圖。從圖 6 可以看出,模型是在收斂的,且在1 600 維數(shù)據(jù)上的收斂效果更好。從圖 7 可以看出,隨著迭代次數(shù)的增加,檢測效果變好,且模型在 1 600 維數(shù)據(jù)上的表現(xiàn)更好,這應(yīng)該是得益于 1 600 維保留的字節(jié)數(shù)比 784 維的多。
對比實(shí)驗(yàn)選擇單一網(wǎng)絡(luò)結(jié)構(gòu)的特征提取方法,包括兩層全連接的全連接網(wǎng)絡(luò)(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和 LSTM,采用 softmax 層對得到的特征進(jìn)行分類,分類結(jié)果如表 2 所示。
特征提取工作的質(zhì)量無法直接進(jìn)行衡量,需將提取到的特征用于相應(yīng)的任務(wù),通過任務(wù)的質(zhì)量間接體現(xiàn)特征提取的質(zhì)量。表 2 將不同特征提取的結(jié)果使用 softmax 分類器進(jìn)行分類,以觀察所提出方法在 784 維和 1 600 維數(shù)據(jù)上的準(zhǔn)確率、帶權(quán)重的 F1 值、帶權(quán)重的召回率、帶權(quán)重的精準(zhǔn)率。可以看出,不管是在 784 維的數(shù)據(jù)上還是 1 600 維的數(shù)據(jù)上,提取網(wǎng)絡(luò)流量空間特征的卷積網(wǎng)絡(luò)(CNN)方法的分類結(jié)果較差,提取網(wǎng)絡(luò)流量時間特征的 LSTM 方法的分類結(jié)果有所提升,本文方法(CNN-LSTM)的分類結(jié)果最好。該實(shí)驗(yàn)結(jié)果表明不同特征對網(wǎng)絡(luò)流量檢測影響不同,其中時空特征比較好,時間特征次之,空間特征比較差。
圖 6 網(wǎng)絡(luò)流檢測實(shí)驗(yàn)損失圖(10 次訓(xùn)練)Fig. 6 Loss graph of network detection experiments (10 trainings)
圖 7 網(wǎng)絡(luò)流檢測實(shí)驗(yàn)效果圖(10 次訓(xùn)練)Fig. 7 Performance of network detection experiments (10 trainings)
表 2 對比實(shí)驗(yàn)結(jié)果Table 2 Experimental results
網(wǎng)絡(luò)流量檢測方法可劃分為基于規(guī)則、基于特征工程和基于特征學(xué)習(xí)三種。常見的網(wǎng)絡(luò)流量檢測研究先是人工提取相關(guān)的特征,再進(jìn)行模型訓(xùn)練,因此檢測效果依賴特征工程等技術(shù)的特征提取質(zhì)量。Kwon 等[26]提取了 MAWILab 數(shù)據(jù)集中的 29 個特征,使用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測,準(zhǔn)確率能達(dá) 67.86%;Siffer 等[27]使用極值理論進(jìn)行異常檢測,對 MAWILab 數(shù)據(jù)集進(jìn)行流量的異常檢測時,取得了 86% 的真陽率和低于 4% 的假陽率。網(wǎng)絡(luò)流量的內(nèi)部結(jié)構(gòu)揭示了其具有時間和空間的特性,這兩類特征也常用于網(wǎng)絡(luò)流量檢測。針對特征依賴和人工經(jīng)驗(yàn)依賴的問題,本文提出一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)字節(jié)流時空特征提取方法。與前面方法相比,本文方法節(jié)省了人為構(gòu)造和提取特征的成本,其中在 1 600 維的數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)時, 準(zhǔn)確率達(dá)到 89.85%,比 Kwon 等[26]方法的準(zhǔn)確率有很大的提升。
針對網(wǎng)絡(luò)流量特征的自動提取需求,現(xiàn)有的基于規(guī)則和特征工程的方法均需人工經(jīng)驗(yàn)和特征工程技巧,比較繁雜且人工成本高。因此,本文提出一種更自動化的特征提取方法,通過使用深度學(xué)習(xí)提取網(wǎng)絡(luò)字節(jié)流時空特征,及在網(wǎng)絡(luò)原始流量數(shù)據(jù)集上進(jìn)行特征提取,分類實(shí)驗(yàn)結(jié)果顯示檢測結(jié)果有較大的提升。這表明本文方法能有效地緩解網(wǎng)絡(luò)流量檢測任務(wù)中對人工提取特征的依賴并提高檢測準(zhǔn)確率。此外,在 MAWILab 數(shù)據(jù)集上進(jìn)行的對比實(shí)驗(yàn)分類結(jié)果表明,本文所提出方法優(yōu)于其他基于深度學(xué)習(xí)的網(wǎng)絡(luò)流量檢測方法(如全連接網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和長短記憶網(wǎng)絡(luò)),本文方法在 784 維和 1 600 維的數(shù)據(jù)上的準(zhǔn)確率分別為 86.18% 和 89.85%。神經(jīng)網(wǎng)絡(luò)仍存在可解釋性差的問題,未來工作可以提高神經(jīng)網(wǎng)絡(luò)在特征提取工作中的可解釋性,挖掘更多有助于提高網(wǎng)絡(luò)流量檢測的特征類型。