鄧妙然,王開云,張春瑞,張有
(中國工程物理研究院計(jì)算機(jī)應(yīng)用研究所,綿陽621900)
作為一種重要的網(wǎng)絡(luò)安全保障技術(shù),網(wǎng)絡(luò)入侵檢測(NIDS)在監(jiān)測和預(yù)警網(wǎng)絡(luò)威脅方面已有廣泛研究和應(yīng)用。然而隨著網(wǎng)絡(luò)入侵事件數(shù)量和規(guī)模日益增長,現(xiàn)有網(wǎng)絡(luò)入侵檢測技術(shù),特別是基于異常的NIDS 面臨攻擊種類過時(shí)、誤報(bào)率高等挑戰(zhàn)。
網(wǎng)絡(luò)入侵檢測模型基于入侵檢測算法和網(wǎng)絡(luò)數(shù)據(jù)集,其構(gòu)建流程通常包括:數(shù)據(jù)集選擇、數(shù)據(jù)預(yù)處理、確定知識發(fā)現(xiàn)算法、數(shù)據(jù)挖掘、知識評價(jià)[1]。流量數(shù)據(jù)集作為訓(xùn)練和評估網(wǎng)絡(luò)入侵檢測模型的數(shù)據(jù)來源,其數(shù)據(jù)質(zhì)量直接影響入侵檢測模型的分類效果和評測結(jié)果。Malowidzki 等人[2]研究表明,公開可用的網(wǎng)絡(luò)數(shù)據(jù)集在異常類型和流量方面往往是過時(shí)的,因此缺乏有代表性的數(shù)據(jù)集是NIDS 目前面臨最大的問題之一。因此,選擇或建立一個(gè)符合現(xiàn)代真實(shí)網(wǎng)絡(luò)環(huán)境的公開數(shù)據(jù)集,是比較各種NIDS 模型性能以及改進(jìn)算法的基礎(chǔ)。為了達(dá)到該目的,需要對公認(rèn)的流量數(shù)據(jù)集及進(jìn)行分析研究。
最早用于入侵檢測評測的數(shù)據(jù)集是1998 年由MIT Lincoln 實(shí)驗(yàn)室創(chuàng)建的DARPA 1998/99 數(shù)據(jù)集,在此基礎(chǔ)上又產(chǎn)生了KDD CUP99 以及NSL-KDD,這是目前使用最廣泛的一組入侵檢測數(shù)據(jù)集,這其中不乏針對DARPA 1998/99 的詳細(xì)研究和說明[3-5],表明帶有相關(guān)文獻(xiàn)或詳細(xì)描述文檔的數(shù)據(jù)集更容易被使用,繼而有更大可能發(fā)現(xiàn)及完善其問題,有利于入侵檢測評測體系的良性發(fā)展。
Bhuyan 等人[6]分析了6 種基準(zhǔn)數(shù)據(jù)集以及3 種真實(shí)網(wǎng)絡(luò)環(huán)境捕獲的數(shù)據(jù)集,認(rèn)為缺乏真實(shí)背景流量是目前基準(zhǔn)數(shù)據(jù)集普遍面臨的短板;Divekar 等人[3]認(rèn)為KDD CUP 99 的數(shù)據(jù)分布不平衡和缺乏現(xiàn)代攻擊的缺點(diǎn)影響了分類有效性,通過對UNSW-NB15 數(shù)據(jù)集的對比分析認(rèn)為該數(shù)據(jù)集可作為前者的現(xiàn)代化替代。由于缺乏符合要求的可用數(shù)據(jù)集,Yu[7]和Wang[8]在CTU-13 數(shù)據(jù)集的基礎(chǔ)上混合其他數(shù)據(jù)生成新的數(shù)據(jù)集用于深度神經(jīng)網(wǎng)絡(luò)模型。國內(nèi)相關(guān)研究以DARPA 系列數(shù)據(jù)集為主,史美林[5]分析了DARPA 1998 和1999 的測評方法,對數(shù)據(jù)集評測的問題提出改進(jìn),尹述峰[9]在此基礎(chǔ)上對基于該數(shù)據(jù)集的二次處理數(shù)據(jù)集KDD CUP99 進(jìn)行了介紹。上述工作以經(jīng)典數(shù)據(jù)集的評析為主,提出部分?jǐn)?shù)據(jù)集存在的問題,以及現(xiàn)代復(fù)雜網(wǎng)絡(luò)環(huán)境下對于更新和更適配的數(shù)據(jù)集的共同需求。本文在以上研究的基礎(chǔ)上將相關(guān)研究中使用最廣泛的DAR?PA 1998/99 數(shù)據(jù)集、被認(rèn)為是其現(xiàn)代化替代數(shù)據(jù)集的UNSW-NB15 以及目前最新基準(zhǔn)網(wǎng)絡(luò)入侵檢測數(shù)據(jù)集CSE-CIC-2018 進(jìn)行多方面的對比分析,給出相關(guān)數(shù)據(jù)集的使用建議,并提出性能優(yōu)良的網(wǎng)絡(luò)數(shù)據(jù)集可能的生成方向。
網(wǎng)絡(luò)流量數(shù)據(jù)集按照數(shù)據(jù)格式可分為基于數(shù)據(jù)包和基于網(wǎng)絡(luò)流兩類,數(shù)據(jù)包記錄網(wǎng)絡(luò)中的原始流量,網(wǎng)絡(luò)流是關(guān)注網(wǎng)絡(luò)連接的元信息。關(guān)注應(yīng)用層攻擊的數(shù)據(jù)集通常采用基于包的格式,而一些數(shù)據(jù)集出于數(shù)據(jù)存儲空間或避免隱私問題等考慮,采取基于流的數(shù)據(jù)格式。由于數(shù)據(jù)包含載荷,對一些針對特定應(yīng)用或利用傳輸數(shù)據(jù)實(shí)施的攻擊能夠被更好地識別。基于流的數(shù)據(jù)則關(guān)注網(wǎng)絡(luò)連接的整體情況,通過將網(wǎng)絡(luò)層和傳輸層首部的信息提取以及高度聚合,形成特定的屬性集合。一般的流數(shù)據(jù)包含但不限于某一段時(shí)間窗口內(nèi)的五元組信息,即:源IP 地址、目的IP 地址、源端口號、目的端口號以及協(xié)議,也可根據(jù)需要加入其他字段,如流持續(xù)時(shí)間、流包含數(shù)據(jù)包個(gè)數(shù)、流SYN flag 總數(shù)等聚合性信息。
網(wǎng)絡(luò)數(shù)據(jù)集按照數(shù)據(jù)的生成方式可分為真實(shí)、模擬和生成[10]。真實(shí)流量是在生產(chǎn)網(wǎng)絡(luò)環(huán)境中捕獲的,如通過高校網(wǎng)絡(luò)、企業(yè)網(wǎng)絡(luò)、ISP 等真實(shí)生產(chǎn)環(huán)境中的網(wǎng)絡(luò)設(shè)備捕獲。模擬數(shù)據(jù)由測試平臺或仿真(模擬)網(wǎng)絡(luò)環(huán)境中獲得。而由一些流量生成器或人工智能算法合成創(chuàng)建的流量則是合成數(shù)據(jù)。研究人員需要高質(zhì)量的真實(shí)流量數(shù)據(jù)集建立符合真實(shí)網(wǎng)絡(luò)環(huán)境的入侵檢測系統(tǒng),然而生產(chǎn)網(wǎng)絡(luò)的復(fù)雜性及保密要求導(dǎo)致真實(shí)數(shù)據(jù)難以獲得,更難的是對大量流量數(shù)據(jù)打上正確標(biāo)簽,因此大多數(shù)真實(shí)數(shù)據(jù)集都是不帶標(biāo)簽以及對部分字段匿名化處理的,導(dǎo)致使用受限。
1998 年,MIT 林肯實(shí)驗(yàn)室在DARPA 基金資助下對入侵檢測系統(tǒng)進(jìn)行了創(chuàng)造性的離線數(shù)據(jù)集評估,并公開提供了可供下載的評測數(shù)據(jù)集“1998 DARPA 入侵檢測評測數(shù)據(jù)集”,即DARPA 1998 數(shù)據(jù)集。1999 年和2000 年MIT 也提供了更新的版本DARPA 1999[11]和DARPA 2000,2000 年后林肯實(shí)驗(yàn)室的研究工作從公開轉(zhuǎn)為政府內(nèi)部專用,至此以后便沒有公布測評數(shù)據(jù)及相關(guān)報(bào)告[5]。
DARPA 1998/99 模擬網(wǎng)絡(luò)環(huán)境可以分為兩部分:代表對空軍基地流量模擬的內(nèi)網(wǎng)和代表Internet 的外網(wǎng)。由圖1,1998 內(nèi)網(wǎng)實(shí)驗(yàn)環(huán)境包含3 個(gè)機(jī)器,分別搭載當(dāng)時(shí)普遍使用的Linux 2.0.27、SunOS 4.1.4 和Sun So?laris 2.5.1;一個(gè)用于模擬上百臺內(nèi)部機(jī)和工作站的網(wǎng)關(guān)機(jī)器。外網(wǎng)實(shí)驗(yàn)環(huán)境模擬Internet,包含一個(gè)用于捕獲網(wǎng)絡(luò)數(shù)據(jù)的嗅探器,以及一個(gè)用于模擬上百個(gè)工作站的網(wǎng)關(guān)和另一個(gè)模擬上百個(gè)Web 服務(wù)器的網(wǎng)關(guān)。由圖1,DARPA 99 在以下方面做了改進(jìn):①內(nèi)網(wǎng)增加了一個(gè)Windows NT 工作站作為受害主機(jī);②收集Windows NT 的安全事件和內(nèi)網(wǎng)捕獲數(shù)據(jù)作為后續(xù)分析的數(shù)據(jù)源。
圖1 DARPA 1998及199評測數(shù)據(jù)及網(wǎng)絡(luò)環(huán)境示意圖
DARPA 1998 數(shù)據(jù)集包含3 種數(shù)據(jù)源:外網(wǎng)的網(wǎng)絡(luò)數(shù)據(jù)包、Solaris 審計(jì)數(shù)據(jù)和3 臺UNIX 受害主機(jī)的安全備份數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)部分包含7 周訓(xùn)練數(shù)據(jù)和2 周測試數(shù)據(jù)。訓(xùn)練數(shù)據(jù)包含帶標(biāo)簽的正常流量和22 種攻擊的惡意流量,測試數(shù)據(jù)中,除訓(xùn)練集中出現(xiàn)過的攻擊種類外,新增17 種攻擊類型,而在1998 的測評中,測試集是不帶標(biāo)簽的。1998 包含4 大類35 種超過120次網(wǎng)絡(luò)攻擊,4 大類分別是DoS、R2L、U2R 以及Probe,其中Probe 5 種實(shí)施43 次,DoS 11 種實(shí)施17 次,R2L 11 種實(shí)施38 次,U2R 8 種實(shí)施22 次。
DARPA 1999 數(shù)據(jù)集包含4 種數(shù)據(jù)源:內(nèi)外網(wǎng)的網(wǎng)絡(luò)數(shù)據(jù)包、Solaris 審計(jì)數(shù)據(jù)、WinNT 主機(jī)審計(jì)日志以及4 臺主機(jī)夜間和安全有關(guān)的備份數(shù)據(jù)。網(wǎng)絡(luò)流量數(shù)據(jù)共包含5 周數(shù)據(jù),分為3 周訓(xùn)練數(shù)據(jù)和2 周測試數(shù)據(jù)。訓(xùn)練集中,第1 和第3 周的流量不包括任何攻擊行為,第2 的攻擊流量包含部分1998 的攻擊數(shù)據(jù)和一些新增的攻擊類型。測試集中,56 種攻擊分布在第4與第5 周,用于入侵檢測系統(tǒng)的評估。其攻擊種類包含5 大類:DoS、R2L、U2R、Data 和Probe,總共56 種攻擊,212 次攻擊。其中Probe 8 種實(shí)施37 次,DoS 16 種實(shí)施65 次,R2L 16 種實(shí)施56 次,U2R 12 種實(shí)施37次,Data 4 種實(shí)施13 次。
DARPA 1999 相較1998 增加了一些攻擊類型,并基于當(dāng)時(shí)空軍基地內(nèi)網(wǎng)Window NT 系統(tǒng)的普及,增加了針對該系統(tǒng)的攻擊類型。1998 捕獲的網(wǎng)絡(luò)數(shù)據(jù)均來自于部署在外網(wǎng)的嗅探器,而1999 的數(shù)據(jù)來自于內(nèi)外網(wǎng)數(shù)據(jù)。測試集中有17 類攻擊則是在1998 及1999訓(xùn)練集中均未出現(xiàn),可作為NIDS 系統(tǒng)未知攻擊的評測來源。
表1 DARPA 1999 測試集未知攻擊類別
2015 年,新南威爾士大學(xué)(UNSW)在澳大利亞網(wǎng)絡(luò)安全中心(ACCS)網(wǎng)絡(luò)靶場中模擬了一個(gè)小型網(wǎng)絡(luò),使用IXIA 工具模擬真實(shí)流量,產(chǎn)生大量正常和攻擊流量。IXIA 攻擊數(shù)據(jù)來源于CVE 網(wǎng)站上不斷更新的網(wǎng)絡(luò)漏洞和攻擊,該數(shù)據(jù)集包含9 種不同的攻擊,包含pcap 原始流量和csv 文件,并預(yù)分了訓(xùn)練集和測試集。UNSW-NB15 被認(rèn)為是可作為DARPA 良好替代的網(wǎng)絡(luò)數(shù)據(jù)集[3]。
IXIA 流量生成器由3 個(gè)虛擬服務(wù)器配置,服務(wù)器1 和服務(wù)器3 都用于傳輸正常流量,服務(wù)器2 用于形成攻擊行為。在服務(wù)器1 上安裝Tcpdump,用于采集模擬實(shí)驗(yàn)過程中的所有流量數(shù)據(jù)。三臺服務(wù)器通過兩臺路由器與主機(jī)連接,如圖2 所示。防火墻將路由器相連之外,所有流量不論異常與否都需要通過防火墻。整個(gè)模擬過程分兩部分,第一部分持續(xù)16 小時(shí),捕獲約50GB 文件,第二部分持續(xù)15 小時(shí),捕獲約50GB 文件。每一部分的文件都分成1000MB 以內(nèi)的小文件保存。通過模擬實(shí)驗(yàn)過程的攻擊執(zhí)行表獲得標(biāo)簽數(shù)據(jù),該攻擊執(zhí)行表通過IXIA 實(shí)驗(yàn)報(bào)告獲得[12]。
圖2 UNSW-NB15數(shù)據(jù)集實(shí)驗(yàn)環(huán)境示意圖
該數(shù)據(jù)集包含2 類數(shù)據(jù)源:原始流量(Pcap)和經(jīng)IDS 處理后的特征文件(csv)。捕獲的原始流量共100GB,然后經(jīng)過IDS 特征匹配,提取出49 個(gè)關(guān)鍵特征以及標(biāo)簽,共254 萬條記錄。其中CSV 文件分為訓(xùn)練集和測試集,訓(xùn)練集17 萬條記錄,測試集8 萬條記錄,包含各類異常和正常數(shù)據(jù)。UNSW-NB15 產(chǎn)生9 類攻擊,未進(jìn)行二級分類,如表2 所示。
加拿大通信安全機(jī)構(gòu)(Communications Security Es?tablishment/CSE)和網(wǎng)絡(luò)安全研究院(Canadian Institute for Cybersecurity/CIC)于2018 年合作并公布了入侵檢測數(shù)據(jù)集CSE-CIC-IDS2018[13],這也是目前為止最新的公開IDS 數(shù)據(jù)集。
表2 UNSW-NB15 數(shù)據(jù)集攻擊數(shù)據(jù)分類及描述
CSE-CIC-IDS2018 實(shí)現(xiàn)的網(wǎng)絡(luò)是基于AWS 計(jì)算平臺搭建的LAN 網(wǎng)絡(luò)拓?fù)?,被攻擊的網(wǎng)絡(luò)包括420 臺計(jì)算機(jī)和30 臺服務(wù)器,劃分了5 個(gè)子網(wǎng),分別是研發(fā)部門、管理部門、技術(shù)人員部門、運(yùn)營部門、IT 部門以及服務(wù)器機(jī)房。其中除IT 部門外的其他部門均安裝了不同的Windows 操作系統(tǒng),如Windows 8.1 和Win?dows 10,而IT 部門均安裝Ubuntu 操作系統(tǒng)。服務(wù)器機(jī)房則部署了不同Windows Server 版本如2012 和2016 版本,包括郵件服務(wù)器、文件服務(wù)器和應(yīng)用服務(wù)器等。實(shí)施攻擊的網(wǎng)絡(luò)則包括50 臺計(jì)算機(jī),包括Win?dows 8、Windows 10 和Ubuntu 等。該數(shù)據(jù)集網(wǎng)絡(luò)結(jié)構(gòu)最大的特點(diǎn)是模擬企業(yè)網(wǎng)絡(luò)劃分和涵蓋豐富的操作系統(tǒng)平臺,使得該數(shù)據(jù)集更加貼近真實(shí)網(wǎng)絡(luò)環(huán)境。生成數(shù)據(jù)集的實(shí)驗(yàn)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可見圖3。
根據(jù)該網(wǎng)絡(luò)拓?fù)浞桨?,?shí)現(xiàn)從目標(biāo)網(wǎng)絡(luò)外部的一臺或多臺計(jì)算機(jī)實(shí)施攻擊,并采集相應(yīng)數(shù)據(jù)。數(shù)據(jù)捕獲過程持續(xù)10 天,每天捕獲時(shí)間從13 分鐘到97 分鐘不等。通過CICFlowMeter 特征提取工具處理,原始流量被83 個(gè)統(tǒng)計(jì)流量特征表示,例如持續(xù)時(shí)間、數(shù)據(jù)包個(gè)數(shù)、字節(jié)總數(shù)、數(shù)據(jù)包長等。數(shù)據(jù)集包含3 種數(shù)據(jù)源:①實(shí)驗(yàn)過程捕獲的原始流量(Pcap);②主機(jī)日志記錄;③帶標(biāo)簽的流(CSV)。網(wǎng)絡(luò)數(shù)據(jù)除了良性(Benign)流量外,還包括7 種攻擊場景下產(chǎn)生的流量,并細(xì)分為14 種攻擊類型。全部流量(Pcap)約350GB。除原始流量外,CIC2018 數(shù)據(jù)集還提供了經(jīng)提取后的流數(shù)據(jù),每一條記錄是一個(gè)具有83 種特征及標(biāo)簽的流記錄,方便將數(shù)據(jù)集用于機(jī)器學(xué)習(xí)各類算法。CSE-CIC-IDS2018 的7 大類14 種攻擊數(shù)據(jù)分布在10 天,實(shí)驗(yàn)涉及主機(jī)包含一攻一、一攻多和多攻多等模式,涉及7 種協(xié)議:HTTPS、HTTP、SMTP、POP3、IMAP、SSH 和FTP,其中大部分是HTTP 和HTTPS。表3 描述了各個(gè)入侵類型生成使用的工具、平臺以及持續(xù)時(shí)間。
圖3 CSE-CIC-IDS2018數(shù)據(jù)集實(shí)驗(yàn)環(huán)境示意圖
雖然DARPA 1998/99 評估數(shù)據(jù)集距今已有二十年歷史,但該數(shù)據(jù)集及其衍生出的KDD CUP99 及NSLKDD 仍是使用最廣泛的網(wǎng)絡(luò)數(shù)據(jù)集。DARPA 1999 增加了完全不含攻擊流量的訓(xùn)練數(shù)據(jù),擴(kuò)展了對異常檢測的支持、增加了對NT 內(nèi)網(wǎng)網(wǎng)絡(luò)流量的記錄、增加了隱蔽性強(qiáng)和新類型所占的比例,并且一部分攻擊僅在測試集出現(xiàn),便于評估未知攻擊的檢測能力。DARPA 1998/99 數(shù)據(jù)集缺點(diǎn)主要在于:模擬網(wǎng)絡(luò)環(huán)境簡單,時(shí)隔較遠(yuǎn),不能體現(xiàn)現(xiàn)如今企業(yè)復(fù)雜的生產(chǎn)環(huán)境下的產(chǎn)生的網(wǎng)絡(luò)流量;實(shí)驗(yàn)中用到的主機(jī)OS 版本較為過時(shí)或被主流市場淘汰,涉及協(xié)議類型和服務(wù)或存在同樣的問題;當(dāng)攻擊利用IDS 未監(jiān)控的協(xié)議和服務(wù)時(shí),會出現(xiàn)漏檢[9]。
UNSW-NB15 產(chǎn)生9 類攻擊,未進(jìn)行二級分類。UNSW-NB15 攻擊數(shù)據(jù)的產(chǎn)生來源于攻擊不斷更新的CVE 網(wǎng)站,故它包含的攻擊類型較新且在其他數(shù)據(jù)集中較少出現(xiàn),如Fuzzers、Generic 等,對于其他類型較少的數(shù)據(jù)集可以作為補(bǔ)充。同時(shí),攻擊數(shù)據(jù)的記錄數(shù)占總體數(shù)據(jù)約12.64%,正常流量占絕大多數(shù)。對比DARPA 數(shù)據(jù)集,UNSW-NB15 具有更全面和現(xiàn)代的攻擊類型,包含更多IP 地址數(shù)量,更符合現(xiàn)代攻擊場景特點(diǎn)[14]。但相較于DARPA 和CSE-CIC-IDS2018,其數(shù)據(jù)捕獲時(shí)間相對較短,而一般而言,數(shù)據(jù)采集時(shí)間越長,該數(shù)據(jù)集的流量分布會越貼近真實(shí)環(huán)境。
CSE-CIC-IDS2018 數(shù)據(jù)集是在模擬環(huán)境下產(chǎn)生的網(wǎng)絡(luò)流量數(shù)據(jù)集,包括基于數(shù)據(jù)包的原始流量和帶標(biāo)簽的雙向流文件,正常行為由腳本產(chǎn)生。相比較DAR?PA 數(shù)據(jù)集,其優(yōu)勢在于:模擬企業(yè)網(wǎng)絡(luò)劃分和涵蓋豐富的操作系統(tǒng)平臺:CSE-CIC-IDS2018 數(shù)據(jù)集模擬超過400 臺計(jì)算機(jī)和30 臺服務(wù)器、包含5 個(gè)內(nèi)網(wǎng)的公司內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu),而DARPA 1999 數(shù)據(jù)集產(chǎn)生的攻擊數(shù)據(jù)僅來源于4 臺主機(jī);涵蓋的OS 系統(tǒng)包括Windows 10、Windows 8 及Kali Linux 等目前主流平臺,攻擊流量對當(dāng)前網(wǎng)絡(luò)環(huán)境更有針對性和威脅性。DARPA 1999 中計(jì)算機(jī)的操作系統(tǒng)例如Solaris 2.5(1996 年發(fā)布),Sun 公司已停止對其的支持。覆蓋到的攻擊類型較新,例如DDoS,僵尸網(wǎng)絡(luò),Heartbleed 和內(nèi)網(wǎng)滲透等;攻擊數(shù)據(jù)占比小,符合真實(shí)流量分布情況。當(dāng)然,也存在一些遺憾:數(shù)據(jù)集未預(yù)分出訓(xùn)練和測試集;流量捕獲時(shí)間為10 天,相較于DARPA 1999 數(shù)據(jù)集5 周的采集時(shí)間,持續(xù)時(shí)間不長。
表3 CSE-CIC-IDS2018 數(shù)據(jù)集攻擊類型及實(shí)施情況
本文從數(shù)據(jù)產(chǎn)生環(huán)境、數(shù)據(jù)構(gòu)成及攻擊流量的角度詳細(xì)介紹了三個(gè)數(shù)據(jù)集,DARPA 系列數(shù)據(jù)集作為最為久遠(yuǎn)的入侵檢測評測數(shù)據(jù)集仍然是廣大研究人員使用最普遍的數(shù)據(jù)集,其實(shí)現(xiàn)工具及環(huán)境雖然已經(jīng)過時(shí),但細(xì)致的流量分類方法可為今后的數(shù)據(jù)集生成提供參考。如果需要將數(shù)據(jù)直接用于機(jī)器學(xué)習(xí)模型,提供預(yù)處理后數(shù)據(jù)的UNSW-NB15 和CSE-CIC-IDS2018 是很好的選擇,尤其是前者,提供預(yù)先分類的訓(xùn)練集和測試集。CSE-CIC-IDS2018 作為最新的NIDS 數(shù)據(jù)集,模擬企業(yè)網(wǎng)絡(luò)劃分和涵蓋豐富操作系統(tǒng)平臺使得其對當(dāng)今網(wǎng)絡(luò)環(huán)境的適配性更強(qiáng)。
基于以上的分析,對今后網(wǎng)絡(luò)數(shù)據(jù)集的研究方向做出一些展望。首先,由于不同的數(shù)據(jù)集對于數(shù)據(jù)類型,尤其是攻擊流量的分類方式存在很大差異,在類型上可能存在交叉、重疊或者沖突等問題,在利用多數(shù)據(jù)集進(jìn)行NIDS 模型訓(xùn)練時(shí)限制了其泛化能力。因而為了在數(shù)據(jù)源層面對模型進(jìn)行改進(jìn),對數(shù)據(jù)集的網(wǎng)絡(luò)攻擊統(tǒng)一分類是有必要的。另外,針對數(shù)據(jù)集過時(shí)或與環(huán)境不相適應(yīng)而導(dǎo)致模型可用性低的問題,可生成針對當(dāng)前網(wǎng)絡(luò)環(huán)境的評測數(shù)據(jù)集。如針對專用網(wǎng)絡(luò)的NIDS 可基于由本地網(wǎng)絡(luò)環(huán)境采集流量數(shù)據(jù)構(gòu)建的數(shù)據(jù)集來建立;或者在公共網(wǎng)絡(luò)中構(gòu)建符合廣泛需求的公開數(shù)據(jù)集。評測數(shù)據(jù)集對于入侵檢測技術(shù)的發(fā)展有著積極意義,尤其在改進(jìn)入侵檢測系統(tǒng)性能以及研究相關(guān)評測標(biāo)準(zhǔn)等方面發(fā)揮重要作用,在今后的研究中將會對相關(guān)領(lǐng)域做進(jìn)一步探索。
表4 DARPA 1998/99、UNSW-NB15 及CSE-CIC-IDS2018 數(shù)據(jù)集概況對比