蔡宇航,廖光忠
(1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;2.武漢科技大學(xué) 智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430065)
隨著文件共享、移動(dòng)支付和物聯(lián)網(wǎng)等新互聯(lián)網(wǎng)技術(shù)的興起,以及開放信息系統(tǒng)用戶的增加,網(wǎng)絡(luò)安全問題也日益突出[1],網(wǎng)絡(luò)安全的需求不斷增長。因此,網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)(Network Intrusion Detection System,NIDS)已成為網(wǎng)絡(luò)安全領(lǐng)域的重要組成部分[2]。
針對(duì)網(wǎng)絡(luò)系統(tǒng)的攻擊率急劇增加,攻擊者使用的策略也在不斷變化。近年來隨著深度學(xué)習(xí)模型的不斷發(fā)展,其在大數(shù)據(jù)分析中取得了很好的效果,許多研究人員開始將深度學(xué)習(xí)技術(shù)應(yīng)用于網(wǎng)絡(luò)入侵檢測(cè)模型,基于深度學(xué)習(xí)的網(wǎng)絡(luò)入侵檢測(cè)模型因此得到了廣泛的研究。針對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)所具有的時(shí)空特征,Kim等[3]構(gòu)建了一個(gè)基于梯度下降優(yōu)化的長短期記憶網(wǎng)絡(luò)入侵檢測(cè)模型,該模型使用長短期記憶網(wǎng)絡(luò)保留所提取的特征之間的依賴關(guān)系,并通過卷積神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)的空間特征,但該模型存在過擬合問題。針對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)特征維度豐富的問題,Wang等[4]提出了一種基于堆疊去噪自編碼器和極限學(xué)習(xí)機(jī)相結(jié)合的集成深度入侵檢測(cè)模型,該模型通過降噪自編碼器學(xué)習(xí)數(shù)據(jù)特征,然后將學(xué)習(xí)到的特征輸入到極限學(xué)習(xí)機(jī)中進(jìn)行進(jìn)一步提取,但該模型數(shù)據(jù)挖掘能力有限,對(duì)小樣本數(shù)據(jù)集的檢測(cè)效果較差。針對(duì)少數(shù)類別難以檢測(cè)的問題,Singla等[5]基于生成式對(duì)抗網(wǎng)絡(luò)提出了一種對(duì)抗域自適應(yīng)的入侵檢測(cè)模型,該模型通過將域自適應(yīng)和生成式對(duì)抗網(wǎng)絡(luò)相結(jié)合,降低了入侵檢測(cè)模型訓(xùn)練所需要的數(shù)據(jù)量,可以通過僅對(duì)少量的樣本數(shù)據(jù)進(jìn)行訓(xùn)練從而達(dá)到更高的準(zhǔn)確率,但對(duì)于網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的多分類異常檢測(cè)的準(zhǔn)確性普遍不高。為解決高維數(shù)據(jù)難以建模分析的問題,Jia等[6]提出了一種信息增益技術(shù),對(duì)高維數(shù)據(jù)進(jìn)行降維并去除冗余特征,基于信息熵來確定深度置信網(wǎng)絡(luò)中隱藏神經(jīng)元的數(shù)量和模型網(wǎng)絡(luò)深度,但模型的泛化性能不足。
綜上所述,為了解決網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)在大型網(wǎng)絡(luò)環(huán)境中檢測(cè)率低、泛化能力差的問題[7],該文提出一種基于改進(jìn)降噪自編碼器的網(wǎng)絡(luò)入侵檢測(cè)模型,使用降噪自編碼器對(duì)數(shù)據(jù)進(jìn)行特征提取,降低了對(duì)噪聲擾動(dòng)的敏感性,并且通過引入門控循環(huán)單元使得模型集成了時(shí)序特征的記憶能力。同時(shí)針對(duì)數(shù)據(jù)不平衡問題,對(duì)數(shù)據(jù)集中的少數(shù)類樣本使用生成式對(duì)抗網(wǎng)絡(luò)進(jìn)行擴(kuò)充,使得網(wǎng)絡(luò)入侵檢測(cè)數(shù)據(jù)中各類樣本更加均衡,提高了模型的多分類準(zhǔn)確率。
生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)是Ian Goodfellow于2014年提出的一種深度生成神經(jīng)網(wǎng)絡(luò),通過對(duì)抗過程估計(jì)生成模型[8],可對(duì)現(xiàn)實(shí)世界中的數(shù)據(jù)的復(fù)雜高維分布進(jìn)行建模分析與學(xué)習(xí)。GAN由兩個(gè)重要模塊組成:生成器G和判別器D,其中生成器G用于學(xué)習(xí)真實(shí)數(shù)據(jù)樣本的潛在分布,從而生成相似數(shù)據(jù)樣本;判別器D用于判斷數(shù)據(jù)樣本的真實(shí)性[9]。分類結(jié)果將通過損失權(quán)重更新傳遞回G和D。兩個(gè)網(wǎng)絡(luò)經(jīng)過不斷訓(xùn)練,直到D不再能夠區(qū)分真實(shí)樣本和生成樣本。GAN的基本原理如圖1所示。
圖1 生成式對(duì)抗網(wǎng)絡(luò)基本原理
其中,z是初始隨機(jī)生成的噪聲,G(z)表示生成器G試圖從噪聲Pz的分布中學(xué)習(xí)一個(gè)分布PG,使PG盡可能接近真實(shí)數(shù)據(jù)的分布Pdata。判別器D的作用是識(shí)別數(shù)據(jù)樣本是否真實(shí)。繼續(xù)調(diào)整G和D,直到D在訓(xùn)練期間無法區(qū)分真實(shí)數(shù)據(jù)和生成數(shù)據(jù),從而實(shí)現(xiàn)了PG=Pdata的最優(yōu)性。因此,定義G和D的目標(biāo)函數(shù)如下:
Ez~Pz(z)[log(1-D(G(z)))]
(1)
在入侵檢測(cè)領(lǐng)域中,相關(guān)數(shù)據(jù)集通常具有樣本不均衡以及特征維度豐富的特點(diǎn)。其中,樣本不均衡問題指的是在數(shù)據(jù)集中正常的數(shù)據(jù)樣本所占比例較高,而網(wǎng)絡(luò)攻擊類別的樣本占比較小,在訓(xùn)練入侵檢測(cè)模型的時(shí)候如果不注意該問題,則容易出現(xiàn)模型對(duì)于網(wǎng)絡(luò)攻擊檢測(cè)敏感程度較低的現(xiàn)象,從而降低了入侵檢測(cè)的召回率[10],對(duì)入侵檢測(cè)的效果造成影響。針對(duì)此問題,該文使用GAN網(wǎng)絡(luò)數(shù)據(jù)生成技術(shù)來創(chuàng)建包含高度不平衡類的數(shù)據(jù)集,以減少數(shù)據(jù)不均衡對(duì)檢測(cè)模型準(zhǔn)確率的影響。
自編碼器(Autoencoder,AE)是一種無監(jiān)督學(xué)習(xí)算法,通過壓縮輸入信息,從數(shù)據(jù)中提取最具代表性的特征[11]。目的是在不丟失重要特征的情況下減少輸入信息的維度,減小神經(jīng)網(wǎng)絡(luò)的開銷達(dá)到特征提取的效果,其特征提取效果也決定了機(jī)器學(xué)習(xí)模型的效果。為了解決模型存在對(duì)數(shù)據(jù)無效提取的問題,研究人員對(duì)自編碼器添加了一定的約束,以提高對(duì)數(shù)據(jù)集深層特征的提取效果。其中一種便是降噪自編碼器(Denoising Autoencoder,DAE),通過在輸入中引入隨機(jī)噪聲,迫使自編碼器在學(xué)習(xí)過程中去除隨機(jī)噪聲,從而降低其對(duì)輸入樣本的敏感性[12],增強(qiáng)了隱藏層的特征學(xué)習(xí)能力,使得模型具有更加良好的魯棒性[13]。其結(jié)構(gòu)如圖2所示。
圖2 降噪自編碼器結(jié)構(gòu)
傳統(tǒng)的DAE網(wǎng)絡(luò)入侵檢測(cè)模型雖然能夠克服隨機(jī)噪聲的影響,有效地提取原始數(shù)據(jù)的特征,但每層內(nèi)部的節(jié)點(diǎn)之間處于無連接狀態(tài),無法有效處理數(shù)據(jù)的時(shí)序傳遞關(guān)系,數(shù)據(jù)重構(gòu)的準(zhǔn)確性容易隨著時(shí)間序列長度的增加而降低[14]。為了增強(qiáng)檢測(cè)模型對(duì)入侵?jǐn)?shù)據(jù)的特征提取的有效性,該文構(gòu)建了一種GRU-DAE模型,在DAE網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上引入門控循環(huán)單元(Gate Recurrent Unit,GRU)[15]完成編碼和解碼過程,在保證精度的同時(shí)提高了計(jì)算效率,也提高了模型的非線性擬合能力。
GRU結(jié)構(gòu)如圖3所示。
圖3 GRU結(jié)構(gòu)
GRU神經(jīng)網(wǎng)絡(luò)是在LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,對(duì)神經(jīng)元內(nèi)部的組成結(jié)構(gòu)進(jìn)行了優(yōu)化。使用復(fù)位門和更新門替代LSTM結(jié)構(gòu)中的輸入門、遺忘門和輸出門,顯著地提升模型訓(xùn)練的效率。將GRU神經(jīng)網(wǎng)絡(luò)引入網(wǎng)絡(luò)入侵檢測(cè),充分考慮網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的時(shí)序特性,訓(xùn)練速度快,檢測(cè)精度高。GRU神經(jīng)網(wǎng)絡(luò)的訓(xùn)練公式如下:
(2)
其中,xt為當(dāng)前時(shí)刻的輸入向量;ht和ht-1分別為當(dāng)前時(shí)刻和上一時(shí)刻的狀態(tài)記憶變量;rt和zt分別為重置門狀態(tài)、更新門狀態(tài)[16]。
該文將DAE模型的全連接層編碼網(wǎng)絡(luò)替換為GRU編碼層,在網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)編解碼過程中,通過GRU單元的更新門和重置門結(jié)構(gòu)將前一時(shí)刻狀態(tài)信息中重要的部分保留記憶,不重要的部分予以忽略,以此綜合得到當(dāng)前時(shí)刻的狀態(tài)信息。與傳統(tǒng)自編碼模型相比,特征提取更加豐富,并且保證了時(shí)序信息傳遞的連貫性,避免了重要數(shù)據(jù)特征的遺漏。其改進(jìn)后模型網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 GRU-DAE結(jié)構(gòu)
為了減小重構(gòu)誤差,模型采用梯度下降法訓(xùn)練。其中通過DAE提取到的特征具有一定的魯棒性,不易受到隨機(jī)噪聲的影響,而且得益于GRU特有的網(wǎng)絡(luò)結(jié)構(gòu),數(shù)據(jù)的時(shí)序特征也能夠有效地被提取,保持?jǐn)?shù)據(jù)間長期依賴關(guān)系,比改進(jìn)前的DAE模型提取到的特征更加準(zhǔn)確和全面。提取數(shù)據(jù)特征完成后,提取GRU-DAE模型編碼的網(wǎng)絡(luò)部分,在隱層節(jié)點(diǎn)后加上Softmax分類器進(jìn)行分類,最終得到網(wǎng)絡(luò)入侵檢測(cè)結(jié)果。
在模型訓(xùn)練中,利用GAN生成少數(shù)類樣本,改進(jìn)降噪自編碼器的特征提取,Softmax的分類構(gòu)建的并行化設(shè)計(jì)。整個(gè)網(wǎng)絡(luò)入侵檢測(cè)方法的設(shè)計(jì)思路如圖5所示,具體步驟如下:
圖5 基于GRU-DAE模型的網(wǎng)絡(luò)入侵檢測(cè)流程
(1) 對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)中的字符型特征進(jìn)行數(shù)值化,并對(duì)所有數(shù)據(jù)進(jìn)行歸一化處理,得到標(biāo)準(zhǔn)化的原始數(shù)據(jù)集,然后將其分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。
(2)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)包括正常數(shù)據(jù)和攻擊數(shù)據(jù),但一般情況下,其攻擊數(shù)據(jù)量遠(yuǎn)遠(yuǎn)小于正常行為數(shù)據(jù)量,并且攻擊數(shù)據(jù)也存在類別失衡。通過數(shù)據(jù)劃分,將訓(xùn)練集分為少數(shù)類樣本和其他類樣本。
(3)訓(xùn)練數(shù)據(jù)集中少數(shù)類樣本通過GAN進(jìn)行數(shù)據(jù)增強(qiáng)。將GAN生成的新數(shù)據(jù)樣本與原始數(shù)據(jù)樣本整合,獲得一個(gè)新的均衡訓(xùn)練集。
(4)使用新的訓(xùn)練集對(duì)GRU-DAE模型訓(xùn)練,用測(cè)試集對(duì)模型進(jìn)行測(cè)試,實(shí)現(xiàn)對(duì)入侵?jǐn)?shù)據(jù)的特征提取。最后對(duì)提取的特征通過Softmax分類器進(jìn)行分類,得到檢測(cè)結(jié)果,從而實(shí)現(xiàn)網(wǎng)絡(luò)入侵異常檢測(cè)。
該文使用的實(shí)驗(yàn)平臺(tái)為Ubuntu 18.04操作系統(tǒng),硬件配置為NVIDIA RTX 2060圖形處理器、32 GB內(nèi)存。算法采用Python 3.6.5和TensorFlow 2.3.0實(shí)現(xiàn)。
用于NIDS的開放數(shù)據(jù)集并不多,大部分相關(guān)工作主要基于KDD99數(shù)據(jù)集、NSL-KDD數(shù)據(jù)集和Kyoto2006數(shù)據(jù)集進(jìn)行研究。研究人員對(duì)現(xiàn)有數(shù)據(jù)集的評(píng)估表明,它們大多陳舊且不可靠,還有一些問題不能反映當(dāng)前的攻擊趨勢(shì)。在最近發(fā)布的數(shù)據(jù)集中,ISCX2012數(shù)據(jù)集反映了最新的攻擊。但是,由于攻擊類型比UBSW-NB15數(shù)據(jù)集少,特征數(shù)量少,因此不適合作為本研究的數(shù)據(jù)集。
因此,該文使用UBSW-NB15數(shù)據(jù)集[17]進(jìn)行實(shí)驗(yàn),它由正常流量和9種攻擊類型組成,共10種類型,其中包括Analysis、Backdoor、Shellcode和Worms少數(shù)類。表1展示了UBSW-NB15數(shù)據(jù)集中各類數(shù)據(jù)的分布情況。
表1 UNSW-NB15數(shù)據(jù)集各類數(shù)據(jù)分布
網(wǎng)絡(luò)入侵檢測(cè)數(shù)據(jù)中存在連續(xù)數(shù)據(jù)和離散數(shù)據(jù),數(shù)據(jù)中不同特征屬性之間存在較大的數(shù)量差異。為了使數(shù)據(jù)集中不同類別的數(shù)據(jù)更加均衡,通常需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理階段通常包括兩個(gè)部分:數(shù)值化和歸一化[18]。
(1)數(shù)值化:原始數(shù)據(jù)集含有不利于直接矢量化的字符串特征,為了將數(shù)據(jù)輸入到網(wǎng)絡(luò)異常檢測(cè)模型中,對(duì)數(shù)據(jù)標(biāo)簽進(jìn)行獨(dú)熱編碼操作,將其中的字符型特征轉(zhuǎn)換為數(shù)值型特征。獨(dú)熱編碼是機(jī)器學(xué)習(xí)分類任務(wù)中一種常用的數(shù)據(jù)編碼方法,它可以將原始數(shù)據(jù)中離散值轉(zhuǎn)化為歐氏空間的點(diǎn),從而保持各標(biāo)簽之間合理的特征距離[19]。例如,該文采用的數(shù)據(jù)集中proto、service、state和Attack_act包含字符型特征,例如proto屬性,將其中的三個(gè)最重要的值TCP、UDP和ICMP分別映射到1、2和3,并將其余值映射到4。
(2)歸一化:由于原始數(shù)據(jù)中各維度的值不一致,數(shù)據(jù)范圍大不相同,這在網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)集中尤為突出,所以需要對(duì)原始數(shù)據(jù)的每一列進(jìn)行歸一化處理。高幅度數(shù)據(jù)具有較高的權(quán)重,這使得低幅度的數(shù)據(jù)對(duì)結(jié)果的影響很小,并且丟失了一些隱藏在原始數(shù)據(jù)集中的信息。將同一列數(shù)據(jù)歸一化到[-1,1]之間。其歸一化公式為:
(3)
其中,x為原始數(shù)據(jù)集的特征值,x*為歸一化后的數(shù)據(jù)值,xmax和xmin分別為原始特征值的最大值和最小值。
目前使用GAN模型對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)進(jìn)行擴(kuò)充大致分為兩種方法:一種是整體類擴(kuò)充,使用GAN對(duì)整體類別進(jìn)行訓(xùn)練并生成相似數(shù)據(jù),再對(duì)生成的數(shù)據(jù)進(jìn)行類別識(shí)別;另外一種是類別內(nèi)擴(kuò)充,其區(qū)別是需要在生成數(shù)據(jù)的類別中進(jìn)行訓(xùn)練,并生成相應(yīng)類別的數(shù)據(jù)。文中實(shí)驗(yàn)采用類別內(nèi)擴(kuò)充對(duì)少數(shù)類進(jìn)行數(shù)據(jù)增強(qiáng),其步驟如下:
(1)從預(yù)處理后的網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)集中分離出包括Analysis、Shellcode、Backdoor和Worms四個(gè)少數(shù)攻擊類的數(shù)據(jù)集。
(2)因分離出的訓(xùn)練數(shù)據(jù)維度數(shù)不夠,根據(jù)GAN模型的輸入格式要求,將128維的訓(xùn)練數(shù)據(jù)末位進(jìn)行補(bǔ)0擴(kuò)充,使之變成144維度,進(jìn)而轉(zhuǎn)換為12×12的矩陣向量。
(3)通過在生成模型中引入范圍在[-1,1]的144維的隨機(jī)噪聲,將GAN生成的新數(shù)據(jù)樣本與原始數(shù)據(jù)樣本進(jìn)行混合,從而訓(xùn)練判別器。
(4)根據(jù)實(shí)驗(yàn)選擇合適的迭代次數(shù),分別對(duì)判別模型和生成模型進(jìn)行訓(xùn)練迭代,當(dāng)判別模型和生成模型的判別結(jié)果分別達(dá)到最優(yōu)和最差時(shí),固定其模型參數(shù),不斷迭代該過程,直至GAN模型平衡。
(5)將擴(kuò)充的樣本重組為144維的特征向量,取前128維作為擴(kuò)充樣本的特征,并將擴(kuò)充樣本與原始訓(xùn)練數(shù)據(jù)進(jìn)行混合,得到新的訓(xùn)練數(shù)據(jù)集。
該文基于混淆矩陣來測(cè)量結(jié)果。其由四種數(shù)值組成:真正例(True Positive,TP)、真負(fù)例(True Negative,TN)、假正例(False Positive,F(xiàn)P)、假負(fù)例(False Negative,F(xiàn)N),混淆矩陣的定義如表2所示。
表2 混淆矩陣定義
實(shí)驗(yàn)性能評(píng)估準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)。其公式如下:
(4)
(5)
(6)
(7)
其中,準(zhǔn)確率是一個(gè)最直觀地表示模型的性能的評(píng)價(jià)指標(biāo),但是當(dāng)數(shù)據(jù)類別不平衡時(shí),需要補(bǔ)充指標(biāo)F1分?jǐn)?shù),即精確率和召回率的調(diào)和均值。F1分?jǐn)?shù)是一個(gè)重要的性能評(píng)估因素,因?yàn)樗梢詼?zhǔn)確地評(píng)估模型在使用不平衡數(shù)據(jù)時(shí)的性能[20]。因此,該文以準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)作為指標(biāo)。
該文使用GAN對(duì)攻擊類Analysis、Backdoor、Shellcode和Worms進(jìn)行樣本擴(kuò)充。GAN的初始參數(shù)包括batch-size設(shè)置為20,epoch為100,學(xué)習(xí)率為0.000 2,其中對(duì)少數(shù)類數(shù)目擴(kuò)充為10 000。
實(shí)驗(yàn)過程中,該文分別選用迭代次數(shù)為50、200、400、600和800進(jìn)行GAN訓(xùn)練,實(shí)驗(yàn)結(jié)果如圖6所示。當(dāng)?shù)螖?shù)為400時(shí),其準(zhǔn)確率基本達(dá)到最高。迭代次數(shù)超過400次后隨著迭代次數(shù)的增加,各類的檢測(cè)準(zhǔn)確率沒有顯著提高。綜合檢測(cè)準(zhǔn)確率和時(shí)間成本考慮,文中GAN的迭代次數(shù)選擇400次。
圖6 不同迭代次數(shù)下模型的檢測(cè)準(zhǔn)確率
由于GRU特殊的網(wǎng)絡(luò)結(jié)構(gòu),GRU-DAE編碼網(wǎng)絡(luò)的隱藏層數(shù)的選擇受批訓(xùn)練大小的限制。該文對(duì)隱藏層數(shù)選擇10、20、30、40、50、60這6個(gè)值進(jìn)行對(duì)比實(shí)驗(yàn),并對(duì)每個(gè)取值重復(fù)5次平均實(shí)驗(yàn),得到訓(xùn)練集中準(zhǔn)確率、召回率和F1分?jǐn)?shù)隨隱藏層數(shù)的數(shù)值變化情況,如圖7所示。
圖7 不同隱藏層數(shù)量下的模型性能
從圖7可以得出,當(dāng)隱藏層數(shù)為40時(shí)表現(xiàn)出較好的性能,即使增加隱藏層數(shù)量,性能也沒有得到較高提升,相反隱藏層數(shù)過多會(huì)使模型結(jié)構(gòu)過于復(fù)雜,不僅會(huì)使時(shí)間成本過高,而且可能會(huì)降低模型的檢測(cè)性能。因此,綜合考慮模型性能和時(shí)間成本,選取40為隱藏層數(shù)的最優(yōu)取值。
為了更好地體現(xiàn)該模型在少數(shù)類的檢測(cè)效果,該文對(duì)比了傳統(tǒng)的LeNet、AlexNet、GoogleNet和LSTM模型在Analysis、Backdoor、Shellcode和Worms類上的各項(xiàng)指標(biāo),對(duì)各模型均進(jìn)行5次重復(fù)實(shí)驗(yàn)并取其平均值,實(shí)驗(yàn)結(jié)果如表3所示。實(shí)驗(yàn)證明,通過GAN對(duì)少數(shù)類樣本進(jìn)行擴(kuò)充,提高少數(shù)攻擊類的占比,使少數(shù)攻擊類樣本能夠充分被分類器學(xué)習(xí),其檢測(cè)率得到了明顯提高。
表3 少數(shù)類別數(shù)據(jù)檢測(cè)率對(duì)比 %
為了更好地分析GRU-DAE異常檢測(cè)模型的性能,該文分別使用決策樹、隨機(jī)森林、GRU-RNN和CNN-BiLSTM這4種網(wǎng)絡(luò)入侵檢測(cè)模型基于相同數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)各模型均進(jìn)行5次重復(fù)實(shí)驗(yàn)并記錄平均值,實(shí)驗(yàn)結(jié)果對(duì)比如表4所示。與傳統(tǒng)網(wǎng)絡(luò)入侵檢測(cè)模型相比,GRU-DAE在UNSW-NB15數(shù)據(jù)集上的檢測(cè)效果更優(yōu),驗(yàn)證了該模型在網(wǎng)絡(luò)入侵檢測(cè)上具有較高的整體類別檢測(cè)率。
表4 各模型實(shí)驗(yàn)結(jié)果對(duì)比 %
從以上對(duì)比實(shí)驗(yàn)結(jié)果可以看出,在處理樣本不平衡的入侵檢測(cè)數(shù)據(jù)時(shí),GRU-DAE模型不僅對(duì)少數(shù)攻擊類取得了較高的檢測(cè)率,而且在整體檢測(cè)性能上相較于傳統(tǒng)方法也具有一定的優(yōu)勢(shì)。
該文提出了一種融合生成式對(duì)抗網(wǎng)絡(luò)、降噪自編碼器與門控循環(huán)單元的入侵檢測(cè)方法。針對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)不均衡問題,采用生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)對(duì)少數(shù)類樣本數(shù)據(jù)進(jìn)行擴(kuò)充,降低數(shù)據(jù)的不平衡程度,提高少數(shù)攻擊類的占比,使少數(shù)攻擊類樣本能夠充分被分類器學(xué)習(xí),提高了對(duì)少數(shù)類的檢測(cè)率。同時(shí)提出了一種改進(jìn)降噪自編碼器的網(wǎng)絡(luò)入侵模型,通過融入門控循環(huán)單元,使得模型在具有一定的魯棒性、不易受到隨機(jī)噪聲影響的同時(shí),對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的時(shí)序特征也能夠有效地提取,實(shí)現(xiàn)了對(duì)數(shù)據(jù)間長期依賴關(guān)系的有效記憶,相較于傳統(tǒng)的網(wǎng)絡(luò)入侵檢測(cè)模型,具有更高的檢測(cè)性能。在今后的研究工作中,將基于該模型對(duì)物聯(lián)網(wǎng)環(huán)境中的正常數(shù)據(jù)和攻擊數(shù)據(jù)進(jìn)行處理與分析,進(jìn)一步驗(yàn)證該方法對(duì)于物聯(lián)網(wǎng)領(lǐng)域網(wǎng)絡(luò)入侵檢測(cè)任務(wù)的適用性和有效性。