胡煒晨,許聰源,詹勇,陳廣輝,劉思情,王志強(qiáng),王曉琳
研究與開(kāi)發(fā)
一種適用于小樣本條件的網(wǎng)絡(luò)入侵檢測(cè)方法
胡煒晨,許聰源,詹勇,陳廣輝,劉思情,王志強(qiáng),王曉琳
(嘉興學(xué)院信息科學(xué)與工程學(xué)院,浙江 嘉興 314001)
現(xiàn)有的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)多數(shù)需要大量惡意樣本用于模型訓(xùn)練,但在現(xiàn)網(wǎng)實(shí)戰(zhàn)時(shí),往往只能獲取少量的入侵流量樣本,屬于小樣本條件。對(duì)此,提出了一種適用于小樣本條件的網(wǎng)絡(luò)入侵檢測(cè)方法。該方法由數(shù)據(jù)包采樣模塊和元學(xué)習(xí)模塊兩部分組成,數(shù)據(jù)包采樣模塊用于對(duì)網(wǎng)絡(luò)原始數(shù)據(jù)進(jìn)行篩選、剪切與重組,元學(xué)習(xí)模塊則用于特征提取、結(jié)果分類。在基于真實(shí)網(wǎng)絡(luò)流量數(shù)據(jù)源構(gòu)建的3個(gè)小樣本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法適用性好、收斂快,能有效減少異常點(diǎn)的出現(xiàn),在10個(gè)訓(xùn)練樣本下的檢測(cè)率最高可達(dá)99.29%,準(zhǔn)確率最高可達(dá)97.93%,相比目前已有的算法,分別提升了0.12%和0.37%。
入侵檢測(cè);小樣本;元學(xué)習(xí);網(wǎng)絡(luò)安全;深度學(xué)習(xí)
網(wǎng)絡(luò)入侵手段層出不窮,極大地威脅了網(wǎng)絡(luò)安全。網(wǎng)絡(luò)入侵檢測(cè)是實(shí)現(xiàn)網(wǎng)絡(luò)安全的重要內(nèi)容之一,也是保障網(wǎng)絡(luò)安全的重要手段。在當(dāng)下的網(wǎng)絡(luò)環(huán)境中,網(wǎng)絡(luò)入侵檢測(cè)是頗具復(fù)雜性與挑戰(zhàn)性的工作。各種機(jī)器學(xué)習(xí)算法,特別是深度學(xué)習(xí)算法,被認(rèn)為可以用于檢測(cè)大規(guī)模網(wǎng)絡(luò)流量中的入侵行為[1]。
大部分研究人員建立的入侵檢測(cè)模型在KDD99、CICIDS2017、ISCX2012等被廣泛使用的入侵檢測(cè)數(shù)據(jù)集上都可以達(dá)到較高的檢測(cè)率?,F(xiàn)有的機(jī)器學(xué)習(xí)算法在面對(duì)大量樣本時(shí),有非常出色的表現(xiàn),但是在實(shí)際的網(wǎng)絡(luò)環(huán)境中,并沒(méi)有這樣理想。Zhang等[2]認(rèn)為基于深度學(xué)習(xí)的流量檢測(cè)方法依賴于大量的樣本數(shù)據(jù),Li等[3]認(rèn)為深度網(wǎng)絡(luò)從少量數(shù)據(jù)中學(xué)習(xí)新概念的能力有限。在面對(duì)新出現(xiàn)的入侵時(shí),能獲取的樣本數(shù)量往往非常少,無(wú)法獲取足夠多且已標(biāo)記的樣本來(lái)制作數(shù)據(jù)集,使得現(xiàn)有的基于深度學(xué)習(xí)的入侵檢測(cè)算法很難發(fā)揮原有的作用。而且對(duì)每一種新的入侵手段制作相應(yīng)的數(shù)據(jù)集是非常困難的,一方面是時(shí)間上的限制,制作這樣一個(gè)數(shù)據(jù)集需要大量的時(shí)間;另一方面是人力物力的限制,需要大量的資源才能制作一個(gè)數(shù)據(jù)集。因此,已廣泛使用的基于深度學(xué)習(xí)的檢測(cè)方法都難以在小樣本條件下有效解決入侵檢測(cè)技術(shù)存在的問(wèn)題,而能對(duì)網(wǎng)絡(luò)安全構(gòu)成威脅的往往就是這種無(wú)法獲取足夠樣本的新的入侵方式。若要維護(hù)網(wǎng)絡(luò)安全,如何實(shí)現(xiàn)小樣本條件下的網(wǎng)絡(luò)入侵的有效檢測(cè)是亟待解決的問(wèn)題。
小樣本條件下的機(jī)器學(xué)習(xí)算法在圖像分類領(lǐng)域已經(jīng)有了一些進(jìn)展,例如,Zhang等[4]提出的不確定性感知小樣本圖像分類方法,利用數(shù)據(jù)獨(dú)立的不確定性建模,來(lái)降低噪聲對(duì)小樣本學(xué)習(xí)的不良影響;Afrasiyabi等[5]引入基于混合的特征空間學(xué)習(xí),以在小樣本圖像分類的背景下獲得豐富而穩(wěn)健的特征表示;Kang等[6]提出的關(guān)系嵌入網(wǎng)絡(luò)結(jié)合自關(guān)聯(lián)和交叉關(guān)聯(lián)兩個(gè)關(guān)系模塊,學(xué)習(xí)端到端管理器中的關(guān)系嵌入。但是在入侵檢測(cè)領(lǐng)域,針對(duì)小樣本場(chǎng)景的研究還非常有限。因此,本文針對(duì)性地提出了一種小樣本入侵檢測(cè)方法,可以利用它來(lái)檢測(cè)只有少量樣本的入侵行為。
本文的主要貢獻(xiàn)如下。
? 提出了一種適用于小樣本條件的網(wǎng)絡(luò)入侵檢測(cè)方法。在10個(gè)訓(xùn)練樣本下的檢測(cè)率最高可達(dá)99.29%,準(zhǔn)確率最高可達(dá)97.93%,優(yōu)于現(xiàn)有其他方法。
? 實(shí)驗(yàn)使用ISCX2012、CICIDS2017、CICIDS2018數(shù)據(jù)集的原始流量,并提出了將原始流量轉(zhuǎn)換成小樣本數(shù)據(jù)集的方法,轉(zhuǎn)換后的數(shù)據(jù)適用于評(píng)估小樣本檢測(cè)方法。
近年來(lái),網(wǎng)絡(luò)入侵檢測(cè)已經(jīng)成為網(wǎng)絡(luò)研究領(lǐng)域的一個(gè)熱點(diǎn)。傳統(tǒng)的網(wǎng)絡(luò)入侵檢測(cè)方法分為兩種:基于規(guī)則的檢測(cè)方法和基于負(fù)載特征的檢測(cè)方法。這些網(wǎng)絡(luò)入侵檢測(cè)技術(shù)存在一些問(wèn)題,如缺乏靈活性、誤報(bào)或漏報(bào)率較高等。
隨著機(jī)器學(xué)習(xí)方法的不斷進(jìn)步,與之相關(guān)的方法也被引進(jìn)入侵檢測(cè)領(lǐng)域中。例如,Aldwairi等[7]在網(wǎng)絡(luò)入侵檢測(cè)技術(shù)中結(jié)合了一種被稱為受限玻爾茲曼機(jī)的機(jī)器學(xué)習(xí)技術(shù);Abdelmoumin等[8]提出了一種優(yōu)化技術(shù)來(lái)增強(qiáng)使用單學(xué)習(xí)器的基于異常的機(jī)器學(xué)習(xí)入侵檢測(cè)系統(tǒng)的性能。基于機(jī)器學(xué)習(xí)的檢測(cè)技術(shù)的一大局限是需要設(shè)計(jì)一個(gè)能準(zhǔn)確反映數(shù)據(jù)特征的特征集。這個(gè)特征集的質(zhì)量對(duì)整個(gè)模型的性能有著決定性的影響,但設(shè)計(jì)一個(gè)好的特征集是十分困難的。
然而,深度學(xué)習(xí)的出現(xiàn),克服了傳統(tǒng)機(jī)器學(xué)習(xí)面臨的困難,深度學(xué)習(xí)能夠使模型自動(dòng)化地學(xué)習(xí)到有效的特征。深度學(xué)習(xí)的方法自推出以來(lái)就在眾多研究領(lǐng)域上取得了巨大的成功。越來(lái)越多的研究人員將深度學(xué)習(xí)引入網(wǎng)絡(luò)入侵檢測(cè)技術(shù),Haghighat等[9]提出一種新型基于投票的深度學(xué)習(xí)的框架,可以利用任何類型的深度學(xué)習(xí)結(jié)構(gòu),并且提供了聚合最佳模型的能力。Basati等[10]提出使用一種輕量級(jí)和高效的基于深度特征提取思想的神經(jīng)網(wǎng)絡(luò),在該模型中,網(wǎng)絡(luò)的輸入向量被排列在3D空間中,其各個(gè)值彼此靠近,可以搭建更輕量化的模型結(jié)構(gòu)。Soltani等[11]提出一種深度入侵檢測(cè)系統(tǒng),在該系統(tǒng)的學(xué)習(xí)和檢測(cè)階段使用了流量的元數(shù)據(jù)和純文本,使系統(tǒng)可以挖掘到在流量中被自動(dòng)提取的特征之間的復(fù)雜關(guān)系。
當(dāng)出現(xiàn)一種新的網(wǎng)絡(luò)入侵手段時(shí),如上所述,大部分檢測(cè)模型并不能準(zhǔn)確并且快速地識(shí)別出這些入侵。這個(gè)難題被定義為在小樣本條件下的網(wǎng)絡(luò)入侵檢測(cè)問(wèn)題。
近幾年,有學(xué)者提出一些有關(guān)小樣本學(xué)習(xí)的算法。這些小樣本學(xué)習(xí)算法著重解決深度神經(jīng)網(wǎng)絡(luò)依賴大樣本的問(wèn)題,并且吸引更多的學(xué)者去研究小樣本問(wèn)題。如上所述,隨著小樣本學(xué)習(xí)研究的興起,已經(jīng)有學(xué)者在網(wǎng)絡(luò)入侵檢測(cè)技術(shù)中采用小樣本學(xué)習(xí)方法。例如,Liang等[12]提出一種優(yōu)化的基于類內(nèi)/類間的變分小樣本學(xué)習(xí)模型,其中,基于變分貝葉斯來(lái)優(yōu)化類內(nèi)距離的近似值,基于特征融合的相似最大化用于優(yōu)化類間距離;Xu等[13]提出一種基于元學(xué)習(xí)框架的檢測(cè)方法,設(shè)計(jì)了一個(gè)由特征提取網(wǎng)絡(luò)和比較網(wǎng)絡(luò)組成的深度神經(jīng)網(wǎng)絡(luò);Iliyasu等[14]提出一種利用有監(jiān)督的自動(dòng)編碼器判別表示學(xué)習(xí)的方法;Yang等[15]提出一個(gè)多任務(wù)表示增強(qiáng)元學(xué)習(xí)模型,將監(jiān)督學(xué)習(xí)和基于聚類的無(wú)監(jiān)督學(xué)習(xí)結(jié)合,以提升來(lái)自少量標(biāo)記數(shù)據(jù)的加密流量表示的差異性;Ouyang等[16]基于原型網(wǎng)絡(luò)提出了一種新的小樣本學(xué)習(xí)入侵檢測(cè)算法,通過(guò)一種協(xié)調(diào)獨(dú)熱編碼和主成分分析的新方法來(lái)預(yù)處理數(shù)據(jù)集;Yu等[17]提出一種基于分層數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò),第一層從原始流量中自動(dòng)提取抽象特征,第二層從數(shù)據(jù)包進(jìn)一步構(gòu)建表示;Zhang等[2]通過(guò)利用協(xié)方差矩陣表征每個(gè)流量類別,并根據(jù)協(xié)方差度量函數(shù)計(jì)算查詢流量與每個(gè)類別之間的相似度來(lái)實(shí)現(xiàn)小樣本入侵檢測(cè); Wang等[18]提出一種新的孿生網(wǎng)絡(luò),設(shè)計(jì)的深度學(xué)習(xí)網(wǎng)絡(luò)能捕捉流量特征的動(dòng)態(tài)關(guān)系;Gamal等[19]提出一種基于小樣本深度學(xué)習(xí)的入侵檢測(cè)系統(tǒng),可自動(dòng)識(shí)別來(lái)自網(wǎng)絡(luò)邊緣的零日攻擊;Shi等[20]提出一種基于模型無(wú)關(guān)的元學(xué)習(xí)(model-agnostic meta-learning,MAML)的入侵檢測(cè)框架,從原始流量中提取統(tǒng)計(jì)和序列特征,并引入學(xué)習(xí)遺忘衰減機(jī)制來(lái)動(dòng)態(tài)控制沖突的影響;Ye等[21]提出一種用于語(yǔ)義感知流量檢測(cè)的小樣本潛在狄利克雷生成學(xué)習(xí)的方法,使用基于潛在狄力克雷分配的偽樣本生成算法增強(qiáng)訓(xùn)練數(shù)據(jù),并提出一種模糊回收方法,提高基于長(zhǎng)短期記憶(long short-term memory,LSTM)的分類器的魯棒性;Verkerken等[22]提出一種分層入侵檢測(cè)多階段方法;Xu等[23]提出一種基于度量的一階元學(xué)習(xí)框架,通過(guò)多個(gè)任務(wù)訓(xùn)練入侵檢測(cè)模型,以最大化模型的泛化能力。
本文在上述研究的基礎(chǔ)上,進(jìn)一步降低檢測(cè)需要的樣本數(shù)量,提出的方法使用了更少的訓(xùn)練樣本。此外,為了更貼合實(shí)戰(zhàn)環(huán)境,考慮在不同網(wǎng)絡(luò)下進(jìn)行實(shí)驗(yàn),即使用不同網(wǎng)絡(luò)下采集的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)和測(cè)試,如使用CICIDS2017數(shù)據(jù)集進(jìn)行訓(xùn)練,并使用ISCX2012數(shù)據(jù)集進(jìn)行測(cè)試。
大多數(shù)研究工作利用了數(shù)據(jù)集中已經(jīng)提取好特征的子集合,如CICIDS2017數(shù)據(jù)集,用CICFlowMeter軟件提取了80多個(gè)特征。但是本文直接使用數(shù)據(jù)集提供的pcap包。pcap包中包含了全部原始流量,可以使模型在訓(xùn)練過(guò)程中充分地學(xué)習(xí)到更多的有效特征。
首先,本文根據(jù)官方提供的可擴(kuò)展標(biāo)記語(yǔ)言(extensible markup language,XML)文件對(duì)pcap包中的數(shù)據(jù)打標(biāo)簽。根據(jù)XML文件中所提供的數(shù)據(jù)流的源IP地址、源端口、目的IP地址和目的端口,對(duì)每條數(shù)據(jù)流打上相應(yīng)的標(biāo)簽。為了得到適用于小樣本網(wǎng)絡(luò)入侵檢測(cè)的數(shù)據(jù)集,構(gòu)建了ISCX2012AS(after samping,數(shù)據(jù)采樣后)數(shù)據(jù)集和CICIDS2017AS數(shù)據(jù)集。ISCX2012AS數(shù)據(jù)集中包含了正常流量和4類攻擊,其中攻擊包括內(nèi)部網(wǎng)絡(luò)滲透、超文本傳送協(xié)議(hypertext transfer protocol,HTTP)拒絕服務(wù)攻擊、使用互聯(lián)網(wǎng)中繼交談(Internet relay chat,IRC)僵尸網(wǎng)絡(luò)的分布式拒絕服務(wù)(distributed denial of service,DDoS)攻擊、暴力破解安全外殼(secure shell,SSH);CICIDS2017AS數(shù)據(jù)集中包含了正常流量和5類攻擊,其中攻擊包括暴力破解文件傳送協(xié)議(file transfer protocol,F(xiàn)TP),暴力破解SSH,使用Slowloris、Slowhttptest、Hulk、GoldenEye進(jìn)行的拒絕服務(wù)(denial of service,DoS)攻擊,端口掃描攻擊,使用LOIT的DDoS攻擊。
進(jìn)一步地,對(duì)上述已經(jīng)打過(guò)標(biāo)簽的數(shù)據(jù)進(jìn)行裁剪,對(duì)每條數(shù)據(jù)流都提取前16個(gè)數(shù)據(jù)包,每個(gè)數(shù)據(jù)包提取前256 byte,并且將提取的每條數(shù)據(jù)處理為16×16×16的數(shù)組。然后,為了得到相對(duì)平衡的數(shù)據(jù)集,將提取過(guò)的數(shù)據(jù)打亂,并且按照相同比例提取每一種類型的數(shù)據(jù)。
然后,使用歸一化方法將偏差過(guò)大的數(shù)值變換到0-1分布內(nèi),轉(zhuǎn)化后的數(shù)據(jù)集按照8:2的比例隨機(jī)切割為訓(xùn)練集和測(cè)試集,再?gòu)挠?xùn)練集中取20%作為查詢集,剩余的作為支持集。
最后,為了更好地處理網(wǎng)絡(luò)入侵檢測(cè)中樣本數(shù)量少的問(wèn)題,引入了元學(xué)習(xí)任務(wù)的概念,將類型隨機(jī)組合形成多個(gè)小任務(wù),從而充分利用已有樣本的信息,在隨機(jī)過(guò)程中選取任意一天中的正常和入侵?jǐn)?shù)據(jù)作為測(cè)試集,其余數(shù)據(jù)均作為訓(xùn)練集,任務(wù)分類如圖2所示。
圖2 任務(wù)分類
算法1 訓(xùn)練算法
隨機(jī)初始化θ
for all epoch do
for1 to update do
計(jì)算梯度下降的自適應(yīng)參數(shù):
end
end
end
模型的訓(xùn)練過(guò)程如式2所示。
面對(duì)新的任務(wù),在元模型的基礎(chǔ)上,測(cè)試模型的過(guò)程與訓(xùn)練的過(guò)程大致相同,不同的地方主要在于以下兩點(diǎn)。
本文使用兩個(gè)公開(kāi)數(shù)據(jù)集作為流量數(shù)據(jù)的來(lái)源,分別是CICIDS2017[24]與ISCX2012[25]。CICIDS2017數(shù)據(jù)集由加拿大網(wǎng)絡(luò)安全研究所(Canadian Institute for Cybersecurity,CIC)于2017年7月3日至7日采集,包含5天的數(shù)據(jù)流量,總共2 830 473個(gè)網(wǎng)絡(luò)流量,除了正常的流量,還包含入侵的流量。網(wǎng)絡(luò)數(shù)據(jù)的格式由原始網(wǎng)絡(luò)數(shù)據(jù)包(pcap包)和CICFlowMeter提取的數(shù)值統(tǒng)計(jì)特征組成,更加類似于真實(shí)流量。ISCX2012數(shù)據(jù)集由新不倫瑞克大學(xué)AliShiravi等人在2012年創(chuàng)建,旨在為網(wǎng)絡(luò)入侵檢測(cè)構(gòu)建當(dāng)代基準(zhǔn)。該數(shù)據(jù)集通過(guò)監(jiān)測(cè)7天網(wǎng)絡(luò)活動(dòng)得來(lái),由正常流量和惡意流量組成。該數(shù)據(jù)集能反映現(xiàn)實(shí)的網(wǎng)絡(luò)和流量,并且具備多樣化的入侵場(chǎng)景。生成該數(shù)據(jù)集的方法通過(guò)完全捕獲網(wǎng)絡(luò)跟蹤,使得數(shù)據(jù)集的自然性得以保留。
目前,還缺乏小樣本的基準(zhǔn)數(shù)據(jù)集,所以利用這兩個(gè)數(shù)據(jù)集的原始數(shù)據(jù),通過(guò)本文方法中的數(shù)據(jù)采樣,制作了ISCX2012AS和CICIDS2017AS兩個(gè)小樣本數(shù)據(jù)集。為了區(qū)分兩個(gè)數(shù)據(jù)集,用小寫字母(a、b、c等)表示來(lái)自ISCX2012的數(shù)據(jù),用大寫字母(A、B、C等)表示來(lái)自CICIDS2017的數(shù)據(jù),ISCX2012AS和CICIDS2017AS數(shù)據(jù)集中包含的攻擊類型分別見(jiàn)表1和表2。
表1 ISCX2012AS數(shù)據(jù)集中包含的攻擊類型
表2 CICIDS2017AS數(shù)據(jù)集中包含的攻擊類型
本文實(shí)驗(yàn)中用到的軟/硬件環(huán)境如下:CPU為Intel(R) Xeon(R) Platinum 8350C CPU @ 2.60 GHz,內(nèi)存為128 GHz,操作系統(tǒng)為Ubuntu 20.04,GPU為NVIDIA RTX3090,顯存為24 GB。采用CUDA 11.3作為GPU加速庫(kù),使用了Python 3.8和深度學(xué)習(xí)框架PyTorch 1.1.0。
在本文方法中,構(gòu)造模塊作為特征提取器與分類器。其中,特征提取器用于處理16通道16×16的數(shù)據(jù)。模塊的結(jié)構(gòu)如圖3所示。特征提取器的輸出為64×1×1,其中還使用批標(biāo)準(zhǔn)化(batch normalization,BN)約束數(shù)據(jù)正態(tài)化讓數(shù)據(jù)分布更集中,最后使用線性整流函數(shù)(rectified linear unit,ReLU)作為激活函數(shù)。
圖3 模塊N的結(jié)構(gòu)
其中,卷積層的參數(shù)分別是輸入通道數(shù)、輸出通道數(shù)、卷積核的尺寸、步長(zhǎng)與填充,最大池化層的參數(shù)分別是窗口大小和步幅,全連接層的參數(shù)分別是輸入的樣本大小、輸出的樣本大小。
算法的超參數(shù)設(shè)置見(jiàn)表3。
根據(jù)訓(xùn)練集與測(cè)試集的數(shù)據(jù)來(lái)源,設(shè)計(jì)了如下兩類實(shí)驗(yàn),實(shí)驗(yàn)Ⅰ為同網(wǎng)實(shí)驗(yàn),表示在同種網(wǎng)絡(luò)情況下,各種攻擊類型和樣本數(shù)量在兩種數(shù)據(jù)集上的檢測(cè)情況。而在真實(shí)場(chǎng)景中,所獲取的數(shù)據(jù)往往來(lái)自不同的網(wǎng)絡(luò),即存在跨網(wǎng)情況,因此設(shè)計(jì)實(shí)驗(yàn)Ⅱ?yàn)榭缇W(wǎng)實(shí)驗(yàn),通過(guò)改變訓(xùn)練集與測(cè)試集的網(wǎng)絡(luò)來(lái)源,模擬真實(shí)場(chǎng)景下的小樣本條件。具體實(shí)驗(yàn)如下。
表3 算法的超參數(shù)設(shè)置
實(shí)驗(yàn)Ⅰ:在兩個(gè)數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),保證在實(shí)驗(yàn)Ⅰ中的訓(xùn)練集與測(cè)試集均來(lái)自同一個(gè)數(shù)據(jù)集,即用同一個(gè)網(wǎng)絡(luò)環(huán)境中的數(shù)據(jù)檢測(cè)相同網(wǎng)絡(luò)環(huán)境情況下的攻擊類型。ISCX2012AS包含4種攻擊類型。使用其中3種作為訓(xùn)練集的數(shù)據(jù),另一種攻擊類型作為測(cè)試集的數(shù)據(jù)。構(gòu)建足夠數(shù)量的訓(xùn)練和測(cè)試任務(wù)進(jìn)行實(shí)驗(yàn)。相應(yīng)地,CICIDS2017AS數(shù)據(jù)集包含5種攻擊類型。將其中4種作為本方法訓(xùn)練集的數(shù)據(jù),剩下1種作為測(cè)試集的數(shù)據(jù)。分別提供4組和5組的平行實(shí)驗(yàn),對(duì)所求得的數(shù)據(jù)取均值作為評(píng)判性能的標(biāo)準(zhǔn)。由于每個(gè)實(shí)驗(yàn)是相互獨(dú)立的,所以可以在多臺(tái)計(jì)算機(jī)上同時(shí)進(jìn)行實(shí)驗(yàn)。
為了系統(tǒng)性探究小樣本問(wèn)題,考慮了典型的樣本數(shù)量,設(shè)置了=5、10,此外,為了進(jìn)一步探究極小樣本的情況,還設(shè)置了=3進(jìn)行研究,分別在ISCX2012AS和CICIDS2017AS這兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)Ⅱ:僅將ISCX2012AS或CICIDS2017AS中的一個(gè)作為訓(xùn)練集,另一個(gè)數(shù)據(jù)集作為測(cè)試集,保證訓(xùn)練集與測(cè)試集中的數(shù)據(jù)來(lái)自不同的網(wǎng)絡(luò),用訓(xùn)練集與測(cè)試集的來(lái)源不同來(lái)表示跨網(wǎng),其余參數(shù)與實(shí)驗(yàn)Ⅰ中保持一致,最后與實(shí)驗(yàn)Ⅰ中的結(jié)果進(jìn)行比較。
綜上所述,面對(duì)來(lái)自不同網(wǎng)絡(luò)的數(shù)據(jù)、不同的軟/硬件環(huán)境、不同的攻擊類型,實(shí)驗(yàn)Ⅱ更具有挑戰(zhàn)性和實(shí)用性。
實(shí)驗(yàn)Ⅰ:在ISCX2012AS、CICIDS2017AS數(shù)據(jù)集上的結(jié)果分別見(jiàn)表4和表5,將準(zhǔn)確率(ACC)與檢測(cè)率(DR)作為衡量標(biāo)準(zhǔn)。可以看出,與傳統(tǒng)的監(jiān)督學(xué)習(xí)算法需要大量樣本進(jìn)行訓(xùn)練不同,本文方法在面對(duì)不同攻擊類型時(shí)均有不錯(cuò)的表現(xiàn)力,并且在=10的情況下,兩種數(shù)據(jù)集上的平均檢測(cè)率能分別達(dá)到97.70%、98.13%。這說(shuō)明了使用本文方法實(shí)現(xiàn)小樣本網(wǎng)絡(luò)入侵檢測(cè)的可行性。
與此同時(shí),可以得出以下兩個(gè)結(jié)論。
(1)不同數(shù)據(jù)集的選擇會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生一定的影響。對(duì)于同一個(gè)數(shù)據(jù)集內(nèi)部不同攻擊類型的選取,筆者發(fā)現(xiàn)在ISCX2012AS中攻擊-b作為測(cè)試集的效果較差,在CICIDS2017AS中攻擊-C作為測(cè)試集的效果較差。對(duì)于不同數(shù)據(jù)集的選取,筆者發(fā)現(xiàn)當(dāng)樣本數(shù)量為3或5時(shí),在ISXC2012AS數(shù)據(jù)集上的表現(xiàn)均比CICIDS2017AS的表現(xiàn)好。隨著樣本數(shù)量的增加,當(dāng)樣本數(shù)量為10時(shí),CICIDS2017AS數(shù)據(jù)集上的平均檢測(cè)率反而優(yōu)于ISXC2012AS。
(2)本文方法僅需少量樣本就能達(dá)到較高的檢測(cè)水準(zhǔn)。對(duì)于這兩種數(shù)據(jù)集來(lái)說(shuō),若值不斷增加,ACC會(huì)不斷提高。對(duì)于ISCX2012AS、CICIDS2017AS來(lái)說(shuō),在=3時(shí)平均準(zhǔn)確率就分別達(dá)到了94.55%和93.38%,平均檢測(cè)率分別達(dá)到了95.17%和94.86%;當(dāng)=10時(shí),ISCX2012AS數(shù)據(jù)集上的平均準(zhǔn)確率可達(dá)98.53%,CICIDS2017AS數(shù)據(jù)集上的平均檢測(cè)率達(dá)98.13%。
實(shí)驗(yàn)Ⅱ:通過(guò)改變數(shù)據(jù)集的類別,設(shè)置了跨網(wǎng)實(shí)驗(yàn):在ISCX2012AS上進(jìn)行訓(xùn)練,在CICIDS2017AS上進(jìn)行測(cè)試,在ISCX2012AS上的跨網(wǎng)檢測(cè)結(jié)果見(jiàn)表6。在CICIDS2017AS上進(jìn)行訓(xùn)練,在ISXC2012AS上進(jìn)行測(cè)試,在CICIDS2017AS的跨網(wǎng)檢測(cè)結(jié)果見(jiàn)表7。
表4 在ISCX2012AS數(shù)據(jù)集上的檢測(cè)結(jié)果
表5 在CICIDS2017AS數(shù)據(jù)集上的檢測(cè)結(jié)果
表6 在ISCX2012AS上的跨網(wǎng)檢測(cè)結(jié)果
表7 在CICIDS2017AS上的跨網(wǎng)檢測(cè)結(jié)果
為了更好地反映跨網(wǎng)實(shí)驗(yàn)的表現(xiàn)情況,將其與同網(wǎng)實(shí)驗(yàn)進(jìn)行了對(duì)比,并設(shè)計(jì)了如下兩類對(duì)比實(shí)驗(yàn)。
第一類對(duì)比實(shí)驗(yàn):同網(wǎng)實(shí)驗(yàn)與跨網(wǎng)實(shí)驗(yàn)在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖4所示。圖4(a)中同網(wǎng)ISCX2012AS表示僅使用同一個(gè)網(wǎng)絡(luò)下的數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,即僅使用ISCX2012AS數(shù)據(jù)集作為訓(xùn)練和測(cè)試數(shù)據(jù);跨網(wǎng)CICIDS2017→ ISCX2012AS則表示使用CICIDS2017AS的數(shù)據(jù)進(jìn)行訓(xùn)練,用于檢測(cè)ISCX2012AS的數(shù)據(jù),圖4(b)與之類似。通過(guò)改變的取值來(lái)反映樣本數(shù)量對(duì)準(zhǔn)確率及檢測(cè)率的影響。
圖4 同網(wǎng)實(shí)驗(yàn)與跨網(wǎng)實(shí)驗(yàn)在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
第二類對(duì)比實(shí)驗(yàn):同網(wǎng)實(shí)驗(yàn)與跨網(wǎng)實(shí)驗(yàn)結(jié)果的分布如圖5所示。
圖5 同網(wǎng)實(shí)驗(yàn)與跨網(wǎng)實(shí)驗(yàn)結(jié)果的分布
通過(guò)表6和表7、圖4和圖5,可以得出以下兩個(gè)結(jié)論。
(1)本文方法具有較好的跨網(wǎng)適應(yīng)能力。即使當(dāng)=3時(shí),在兩種數(shù)據(jù)集上的平均檢測(cè)率仍能夠達(dá)到90.51%、93.60%,并且與同網(wǎng)實(shí)驗(yàn)一樣,隨著樣本數(shù)量的增加,ACC和DR也在逐步上升。當(dāng)=10時(shí),在跨網(wǎng)實(shí)驗(yàn)下的檢測(cè)結(jié)果與同網(wǎng)實(shí)驗(yàn)下的檢測(cè)結(jié)果基本持平,最大波動(dòng)幅度不超過(guò)1.15%,這也說(shuō)明跨不同數(shù)據(jù)集的訓(xùn)練和測(cè)試是可行的,從廣義上來(lái)講,它們都屬于同一類型的計(jì)算機(jī)網(wǎng)絡(luò),其流量具有一定的共性。
(2)跨網(wǎng)實(shí)驗(yàn)在樣本數(shù)量過(guò)少(如=3)時(shí)波動(dòng)大,但隨著樣本數(shù)量的增加,跨網(wǎng)實(shí)驗(yàn)?zāi)苡行p少異常點(diǎn)的出現(xiàn)。在圖5(a)中無(wú)論的取值是多少,均有異常點(diǎn),說(shuō)明同網(wǎng)實(shí)驗(yàn)在預(yù)測(cè)某些攻擊類型時(shí)較為欠缺,在預(yù)測(cè)這些攻擊類型時(shí)準(zhǔn)確率和檢測(cè)率會(huì)大幅降低。而在圖5(b)中,異常點(diǎn)的數(shù)量明顯少于圖5(a),當(dāng)=10時(shí),異常點(diǎn)已經(jīng)消失,說(shuō)明跨網(wǎng)實(shí)驗(yàn)?zāi)苡行p少異常點(diǎn)的出現(xiàn),有效解決誤報(bào)率過(guò)高的問(wèn)題。
小樣本網(wǎng)絡(luò)入侵檢測(cè)是一個(gè)比較新的研究領(lǐng)域。據(jù)筆者所知,已有的可供比較的相關(guān)工作還不多,可使用的數(shù)據(jù)集也比較少,因此本文構(gòu)建了可用的數(shù)據(jù)集。由于小樣本網(wǎng)絡(luò)入侵檢測(cè)不同于傳統(tǒng)的入侵檢測(cè),本文基于真實(shí)的網(wǎng)絡(luò)流量(ISCX2012數(shù)據(jù)集和CICIDS2017數(shù)據(jù)集)構(gòu)建數(shù)據(jù)集。具體來(lái)說(shuō),利用兩個(gè)公開(kāi)的網(wǎng)絡(luò)流量數(shù)據(jù)源構(gòu)建小樣本檢測(cè)數(shù)據(jù)集并對(duì)所提方法進(jìn)行評(píng)估。本文構(gòu)建的小樣本數(shù)據(jù)集ISCX2012AS與原始ISCX2012數(shù)據(jù)集共享相同的原始網(wǎng)絡(luò)流量(CICIDS2017AS和CICIDS2017同理)。因此,本文對(duì)最近使用ISCX2012或CICIDS2017數(shù)據(jù)集的幾項(xiàng)研究進(jìn)行了概述,需要說(shuō)明的是,基于元學(xué)習(xí)的連續(xù)小樣本入侵檢測(cè)方法[23]使用額外的數(shù)據(jù)集NDSec-1對(duì)CICIDS2017的攻擊類型進(jìn)行了補(bǔ)充。此外,一種新型的多階段層次入侵檢測(cè)方法[22]研究的是零日樣本的情況,零日樣本指的是尚未被公開(kāi)披露或廣泛知曉的安全漏洞或攻擊技術(shù),它們?cè)诒话l(fā)現(xiàn)和利用之前很少被研究人員和安全專家接觸到,零日樣本通常被認(rèn)為是小樣本,本文選擇與之進(jìn)行對(duì)比。
本文方法和相關(guān)研究工作中的檢測(cè)結(jié)果和樣本數(shù)量對(duì)比見(jiàn)表8,本文方法在ISCX2012AS數(shù)據(jù)集上的檢測(cè)率最高可達(dá)99.29%,在CICIDS2017AS數(shù)據(jù)集上的準(zhǔn)確率最高可達(dá)97.93%,相比目前已有的FC-Net(在CICIDS2017FS數(shù)據(jù)集上的檢測(cè)率為99.17%)和基于元學(xué)習(xí)的連續(xù)小樣本入侵檢測(cè)方法(準(zhǔn)確率為97.56%)分別提高了0.12%和0.37%,優(yōu)于表8中的其他方法。
為了進(jìn)一步探究本文方法的性能,對(duì)輪次(epoch)和更新次數(shù)(update)這兩個(gè)超參數(shù)做進(jìn)一步分析。設(shè)計(jì)如下實(shí)驗(yàn),設(shè)置更新次數(shù)為0~5,把更新0次作為不使用本文方法的對(duì)比實(shí)驗(yàn),并設(shè)置輪次為0~20。
輪次和更新次數(shù)對(duì)檢測(cè)結(jié)果的影響如圖6所示,對(duì)于更新次數(shù)來(lái)說(shuō),當(dāng)更新0次時(shí),準(zhǔn)確率保持在50%附近,符合普通二分類的特性;當(dāng)更新次數(shù)變成1、2、3時(shí),準(zhǔn)確率顯著上升;當(dāng)更新次數(shù)變成4、5時(shí),準(zhǔn)確率與更新3次基本保持一致,為了符合網(wǎng)絡(luò)入侵檢測(cè)的時(shí)效性,本文認(rèn)為經(jīng)歷了3次更新后模型已經(jīng)達(dá)到擬合狀態(tài),雖然繼續(xù)更新能使模型的準(zhǔn)確率小幅上升,但增幅甚小,因此在本次實(shí)驗(yàn)中選取更新3次。此外,當(dāng)更新次數(shù)為3時(shí),迭代次數(shù)在0~2個(gè)輪次時(shí),準(zhǔn)確率大幅上升,在2~10個(gè)輪次時(shí)處于輕微波動(dòng),經(jīng)過(guò)10個(gè)輪次之后基本平穩(wěn)。
圖6 輪次和更新次數(shù)對(duì)檢測(cè)結(jié)果的影響
表8 本文方法和相關(guān)研究工作的檢測(cè)結(jié)果和樣本數(shù)量對(duì)比
在實(shí)際應(yīng)用時(shí),小樣本條件下的入侵檢測(cè)除了考慮其實(shí)用性和準(zhǔn)確率,還需要關(guān)注漏報(bào)率、誤報(bào)率和樣本數(shù)量對(duì)檢測(cè)效果的影響。本文通過(guò)如下實(shí)驗(yàn)來(lái)分析上述指標(biāo)。
首先,選擇不同網(wǎng)絡(luò)環(huán)境下的同網(wǎng)和跨網(wǎng)的實(shí)驗(yàn)結(jié)果,涵蓋了不同網(wǎng)絡(luò)環(huán)境和攻擊類型的情況。其次,表8中的其他算法所提供的數(shù)據(jù)均來(lái)自單一網(wǎng)絡(luò)環(huán)境下的檢測(cè)結(jié)果,為了滿足魯棒性和泛化性,對(duì)不同網(wǎng)絡(luò)環(huán)境下的實(shí)驗(yàn)結(jié)果求均值來(lái)模擬在真實(shí)的網(wǎng)絡(luò)環(huán)境中的復(fù)雜情況,減少對(duì)特定網(wǎng)絡(luò)環(huán)境的依賴,這樣的評(píng)估方法更具有實(shí)際應(yīng)用的價(jià)值,并能夠更好地反映算法的整體性能。然后,將滑動(dòng)窗口設(shè)置為5來(lái)計(jì)算窗口內(nèi)數(shù)據(jù)的均值,以此降低噪聲的影響,得到準(zhǔn)確的變化趨勢(shì)。
各指標(biāo)隨著樣本數(shù)量的變化趨勢(shì)如圖7所示,樣本數(shù)量為5時(shí)漏報(bào)率和誤報(bào)率均低于5%,樣本數(shù)量為10時(shí)均低于3%,樣本數(shù)量為15時(shí)均低于2%。樣本數(shù)量為1~5時(shí),準(zhǔn)確率、檢測(cè)率、精確率有明顯的上升趨勢(shì);樣本數(shù)量為5~10時(shí),雖然上升趨勢(shì)依然存在,但增長(zhǎng)速度開(kāi)始減慢;樣本數(shù)量為10~15時(shí),上升趨勢(shì)較為緩慢。
圖7 各指標(biāo)隨著樣本數(shù)量的變化趨勢(shì)
通過(guò)對(duì)圖7的分析,可以得到以下兩個(gè)結(jié)論。
(1)本文提出的檢測(cè)方法在樣本數(shù)量為10時(shí),漏報(bào)率和誤報(bào)率均低于3%,其中漏報(bào)率為2.28%,已經(jīng)可以達(dá)到實(shí)用要求。這說(shuō)明即使面臨樣本數(shù)量有限的挑戰(zhàn),本文提出的檢測(cè)方法仍然能夠提供較高的準(zhǔn)確性和可靠性。
(2)本文提出的檢測(cè)方法在樣本數(shù)量為15時(shí)的效果已達(dá)到最佳。樣本數(shù)量為15時(shí),誤報(bào)率、漏報(bào)率均小于2%,其中檢測(cè)率為98.33%。而且隨著樣本數(shù)量的增加,準(zhǔn)確率、檢測(cè)率、精確率對(duì)應(yīng)的曲線上升緩慢,已經(jīng)到達(dá)了飽和狀態(tài)。該樣本數(shù)量遠(yuǎn)小于非小樣本條件下的一般網(wǎng)絡(luò)入侵檢測(cè)方法,進(jìn)一步論證了本文工作的主要意義。
對(duì)于網(wǎng)絡(luò)入侵檢測(cè)領(lǐng)域而言,ISCX2012和CICIDS2017數(shù)據(jù)集是經(jīng)典且有代表性的數(shù)據(jù)集。它們被廣泛應(yīng)用于研究和評(píng)估入侵檢測(cè)算法的性能。然而,由于網(wǎng)絡(luò)環(huán)境的不斷演變和新型攻擊的不斷出現(xiàn),這些經(jīng)典數(shù)據(jù)集在涵蓋新型攻擊方面存在一定的局限性。為了擴(kuò)展實(shí)驗(yàn)研究的范圍并更好地應(yīng)對(duì)新型攻擊,本文額外引入了CICIDS2018數(shù)據(jù)集,增加了新型的DoS攻擊、DDoS攻擊、僵尸網(wǎng)絡(luò)、暴力破解等。
根據(jù)第4.3節(jié)的實(shí)驗(yàn)結(jié)果,為滿足高檢測(cè)率、小樣本的條件限制,選擇5~10作為本次實(shí)驗(yàn)的樣本數(shù)量范圍。此外,控制單一變量,僅數(shù)據(jù)集不同,其余參數(shù)保持一致,包含新型攻擊類型的檢測(cè)結(jié)果如圖8所示。
圖8 包含新型攻擊類型的檢測(cè)結(jié)果
通過(guò)圖8可以發(fā)現(xiàn),CICIDS2018在樣本數(shù)量為10時(shí)的各項(xiàng)指標(biāo)均達(dá)到了97%,與ISCX2012的檢測(cè)結(jié)果差值不超過(guò)1%。并且準(zhǔn)確率、精確率、特異度均高于CICIDS2017。這說(shuō)明了本文方法在面臨新型的網(wǎng)絡(luò)環(huán)境及數(shù)據(jù)集的情況下依然有較高的可靠性和準(zhǔn)確性,即使是在樣本數(shù)量不充足的情況下,各指標(biāo)也能達(dá)到97%,因此本文方法不依賴于特定的網(wǎng)絡(luò)環(huán)境和樣本數(shù)量。
此外,新型攻擊層出不窮,面對(duì)新型攻擊類型,一種最優(yōu)的評(píng)估方法應(yīng)當(dāng)引入最新采集的真實(shí)網(wǎng)絡(luò)流量數(shù)據(jù)。限于研究條件,本文提出的檢測(cè)方法還有待進(jìn)一步在正式網(wǎng)絡(luò)流量數(shù)據(jù)上進(jìn)行驗(yàn)證。
首先,本文中的數(shù)據(jù)類型的種類過(guò)少,導(dǎo)致本文方法目前只適用于二分類問(wèn)題,即只能檢測(cè)出正常數(shù)據(jù)或入侵?jǐn)?shù)據(jù),而不能分析出具體是哪一種入侵。其次,本文在框架設(shè)計(jì)上,使用了基于元學(xué)習(xí)的算法,因此在任務(wù)的選取上必須具有一定的關(guān)聯(lián)性,如果出現(xiàn)類型差別過(guò)大的入侵?jǐn)?shù)據(jù),則會(huì)導(dǎo)致算法的準(zhǔn)確率大幅降低。為了解決這些問(wèn)題,未來(lái)的研究可以考慮使用數(shù)據(jù)類別增強(qiáng)算法增加樣本類型數(shù)量,以使本文方法能處理多類型任務(wù)。同時(shí),考慮采用更優(yōu)秀的框架設(shè)計(jì),以有效處理關(guān)聯(lián)性較弱的任務(wù)。這些改進(jìn)將是未來(lái)研究的重點(diǎn)。
針對(duì)小樣本條件下的網(wǎng)絡(luò)入侵檢測(cè)準(zhǔn)確率低的問(wèn)題,采用元學(xué)習(xí)的思想設(shè)計(jì)了多重循環(huán)的算法結(jié)構(gòu),提出了一種適用于小樣本條件的網(wǎng)絡(luò)入侵檢測(cè)方法,大幅減少了訓(xùn)練時(shí)間,達(dá)到了較高的檢測(cè)率。針對(duì)小樣本條件下入侵檢測(cè)數(shù)據(jù)集缺乏的問(wèn)題,本文使用公開(kāi)數(shù)據(jù)集的pcap包構(gòu)建了ISCX2012AS與CICIDS2017AS兩個(gè)數(shù)據(jù)集,該處理方法可使模型學(xué)習(xí)到更多有效特征。為了驗(yàn)證本文方法的有效性,本文做了大量的實(shí)驗(yàn),并與多個(gè)同類工作進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,面對(duì)ISCX2012與CICIDS2017數(shù)據(jù)集,本文方法在更加嚴(yán)格的小樣本條件下仍然具有更優(yōu)的性能,在10個(gè)訓(xùn)練樣本下的檢測(cè)率最高可達(dá)99.29%,準(zhǔn)確率最高可達(dá)97.93%,相比目前已有算法分別提升了0.12%和0.37%。此外,還引入CICIDS2018的數(shù)據(jù)集來(lái)更好地應(yīng)對(duì)新型攻擊,實(shí)驗(yàn)結(jié)果表明,在10個(gè)訓(xùn)練樣本的條件下,本文方法的檢測(cè)率已經(jīng)超過(guò)了97%,并且準(zhǔn)確率、精確率、特異度指標(biāo)均高于在CICIDS2017數(shù)據(jù)集上的檢測(cè)結(jié)果。在后續(xù)研究中,將對(duì)本文方法進(jìn)行優(yōu)化,以提高其在單樣本條件及任務(wù)關(guān)聯(lián)性不強(qiáng)的環(huán)境中的準(zhǔn)確率。
[1] LEE S W, SIDQI H M, MOHAMMADI M, et al. Towards secure intrusion detection systems using deep learning techniques: comprehensive analysis and review[J]. Journal of Network and Computer Applications, 2021(187): 103111.
[2] ZHANG Y, LI G Q, DUAN Q Q, et al. An interpretable intrusion detection method based on few-shot learning in cloud-ground interconnection[J]. Physical Communication, 2022(55): 101931.
[3] LI W H, LIU X L, BILEN H. Cross-domain few-shot learning with task-specific adapters[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2022: 7151-7160.
[4] ZHANG Z Z, LAN C L, ZENG W J, et al. Uncertainty-aware few-shot image classification[C]//Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence. California: International Joint Conferences on Artificial Intelligence Organization, 2021: 3420-3426.
[5] AFRASIYABI A, LALONDE J F, GAGNé C. Mixture-based feature space learning for few-shot image classification[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2022: 9021-9031.
[6] KANG D, KWON H, MIN J H, et al. Relational embedding for few-shot classification[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2022: 8802-8813.
[7] ALDWAIRI T, PERERA D, NOVOTNY M. An evaluation of the performance of restricted Boltzmann machines as a model for anomaly network intrusion detection[J]. Computer Networks, 2018(144): 111-119.
[8] ABDELMOUMIN G, RAWAT D B, RAHMAN A. On the performance of machine learning models for anomaly-based intelligent intrusion detection systems for the Internet of things[J]. IEEE Internet of Things Journal, 2022, 9(6): 4280-4290.
[9] HAGHIGHAT M H, LI J. Intrusion detection system using voting-based neural network[J]. Tsinghua Science and Technology, 2021, 26(4): 484-495.
[10] BASATI A, FAGHIH M M. DFE: efficient IoT network intrusion detection using deep feature extraction[J]. Neural Computing and Applications, 2022, 34(18): 15175-15195.
[11] SOLTANI M, SIAVOSHANI M J, JAHANGIR A H. A content-based deep intrusion detection system[J].International Journal of Information Security, 2022, 21(3): 547-562.
[12] LIANG W, HU Y Y, ZHOU X K, et al. Variational few-shot learning for microservice-oriented intrusion detection in distributed industrial IoT[J]. IEEE Transactions on Industrial Informatics, 2021, 18(8): 5087-5095.
[13] XU C Y, SHEN J Z, DU X. A method of few-shot network intrusion detection based on meta-learning framework[J]. IEEE Transactions on Information Forensics and Security, 2020, 15: 3540-3552.
[14] ILIYASU A S, ABDURRAHMAN U A, ZHENG L R. Few-shot network intrusion detection using discriminative representation learning with supervised autoencoder[J]. Applied Sciences, 2022, 12(5): 2351.
[15] YANG J C, LI H W, SHAO S, et al. FS-IDS: a framework for intrusion detection based on few-shot learning[J]. Computers & Security, 2022, 122: 102899.
[16] OUYANG Y K, LI B B, KONG Q L, et al. FS-IDS: a novel few-shot learning based intrusion detection system for SCADA networks[C]//Proceedings of ICC 2021 - IEEE International Conference on Communications. Piscataway: IEEE Press, 2021: 1-6.
[17] YU L, DONG J T, CHEN L H, et al. PBCNN: packet bytes-based convolutional neural network for network intrusion detection[J]. Computer Networks, 2021(194): 108117.
[18] WANG Z M, TIAN J Y, QIN J, et al. A few-shot learning-based Siamese capsule network for intrusion detection with imbalanced training data[J]. Computational Intelligence and Neuroscience, 2021: 1-17.
[19] GAMAL M, ABBAS H M, MOUSTAFA N, et al. Few-shot learning for discovering anomalous behaviors in edge networks[J]. Computers, Materials & Continua, 2021, 69(2): 1823-1837.
[20] SHI Z X, XING M Y, ZHANG J, et al. Few-shot network intrusion detection based on model-agnostic meta-learning with L2F method[C]//Proceedings of 2023 IEEE Wireless Communications and Networking Conference (WCNC). Piscataway: IEEE Press, 2023: 1-6.
[21] YE T P, LI G L, AHMAD I, et al. FLAG: few-shot latent Dirichlet generative learning for semantic-aware traffic detection[J]. IEEE Transactions on Network and Service Management, 2022, 19(1): 73-88.
[22] VERKERKEN M, D’HOOGE L, SUDYANA D, et al. A novel multi-stage approach for hierarchical intrusion detection[J]. IEEE Transactions on Network and Service Management, 2023, PP(99): 1.
[23] XU H, WANG Y J. A continual few-shot learning method via meta-learning for intrusion detection[C]//Proceedings of 2022 IEEE 4th International Conference on Civil Aviation Safety and Information Technology (ICCASIT). Piscataway: IEEE Press, 2022: 1188-1194.
[24] SHARAFALDIN I, HABIBI LASHKARI A, GHORBANI A A. Toward generating a new intrusion detection dataset and intrusion traffic characterization[C]//Proceedings of the 4th International Conference on Information Systems Security and Privacy. San Francisco: Science and Technology Publications, 2018: 108-116.
[25] SHIRAVI A, SHIRAVI H, TAVALLAEE M, et al. Toward developing a systematic approach to generate benchmark datasets for intrusion detection[J]. Computers & Security, 2012, 31(3): 357-374.
[26] MA W G, ZHANG Y D, GUO J, et al. Few-shot abnormal network traffic detection based on multi-scale deep-CapsNet and adversarial reconstruction[J].International Journal of Computational Intelligence Systems, 2021, 14(1): 1-25.
A network intrusion detection method designed for few-shot scenarios
HU Weichen, XU Congyuan, ZHAN Yong, CHEN Guanghui, LIU Siqing, WANG Zhiqiang, WANG Xiaolin
College of Information Science and Engineering, Jiaxing University, Jiaxing 314001, China
Existing intrusion detection techniques often require numerous malicious samples for model training. However, in real-world scenarios, only a small number of intrusion traffic samples can be obtained, which belong to few-shot scenarios. To address this challenge, a network intrusion detection method designed for few-shot scenarios was proposed. The method comprised two main parts: a packet sampling module and a meta-learning module. The packet sampling module was used for filtering, segmenting, and recombining raw network data, while the meta-learning module was used for feature extraction and result classification. Experimental results based on three few-shot datasets constructed from real network traffic data sources show that the method exhibits good applicability and fast convergence and effectively reduces the occurrence of outliers. In the case of 10 training samples, the maximum achievable detection rate is 99.29%, while the accuracy rate can reach a maximum of 97.93%. These findings demonstrate a noticeable improvement of 0.12% and 0.37% respectively, in comparison to existing algorithms.
intrusion detection, few-shot, meta-learning, network security, deep learning
The Natural Science Foundation of Zhejiang Province (No.LQ23F020006, No.LQ22F020004)
TP393
A
10.11959/j.issn.1000?0801.2023166
2023?04?11;
2023?08?21
許聰源,cyxu@zjxu.edu.cn
浙江省自然科學(xué)基金資助項(xiàng)目(No.LQ23F020006,No.LQ22F020004)
胡煒晨(2000? ),男,嘉興學(xué)院信息科學(xué)與工程學(xué)院在讀,主要研究方向?yàn)榫W(wǎng)絡(luò)安全和機(jī)器學(xué)習(xí)。
許聰源(1990? ),男,博士,嘉興學(xué)院信息科學(xué)與工程學(xué)院講師,主要研究方向?yàn)榫W(wǎng)絡(luò)空間安全和智能信息處理。
詹勇(2002? ),男,嘉興學(xué)院信息科學(xué)與工程學(xué)院在讀,主要研究方向?yàn)樾畔踩蜕疃葘W(xué)習(xí)。
陳廣輝(2002? ),男,嘉興學(xué)院信息科學(xué)與工程學(xué)院在讀,主要研究方向?yàn)槿斯ぶ悄芎托畔踩?/p>
劉思情(2002? ),男,嘉興學(xué)院信息科學(xué)與工程學(xué)院在讀,主要研究方向?yàn)槿斯ぶ悄芎吐┒礄z測(cè)。
王志強(qiáng)(2003? ),男,嘉興學(xué)院信息科學(xué)與工程學(xué)院在讀,主要研究方向?yàn)榫W(wǎng)絡(luò)安全與人工智能。
王曉琳(1989? ),女,博士,嘉興學(xué)院信息科學(xué)與工程學(xué)院講師,主要研究方向?yàn)橹悄芑貧w測(cè)試和深度學(xué)習(xí)。