趙文博,馬紫彤,楊哲
基于超圖神經(jīng)網(wǎng)絡(luò)的惡意流量分類模型
趙文博1,2,3,馬紫彤1,2,3,楊哲1,2,3
(1. 蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006;3. 江蘇省大數(shù)據(jù)智能工程實(shí)驗(yàn)室,江蘇 蘇州 215006)
隨著網(wǎng)絡(luò)的普及和依賴程度的不斷增加,惡意流量的泛濫已經(jīng)成為網(wǎng)絡(luò)安全領(lǐng)域的嚴(yán)重挑戰(zhàn)。在這個(gè)數(shù)字時(shí)代,網(wǎng)絡(luò)攻擊者不斷尋找新的方式來(lái)侵入系統(tǒng)、竊取數(shù)據(jù)和破壞網(wǎng)絡(luò)服務(wù)。開(kāi)發(fā)更有效的入侵檢測(cè)系統(tǒng),及時(shí)發(fā)現(xiàn)并應(yīng)對(duì)惡意流量,可以應(yīng)對(duì)網(wǎng)絡(luò)攻擊的持續(xù)威脅,極大地減少網(wǎng)絡(luò)攻擊帶來(lái)的損失。然而現(xiàn)有的惡意流量分類方法存在一些限制,其中之一是過(guò)度依賴對(duì)數(shù)據(jù)特征的選擇。為了提高惡意流量分類的效果,提出了一種創(chuàng)新的方法,即基于超圖神經(jīng)網(wǎng)絡(luò)的惡意流量分類模型。這一模型的核心思想是將流量數(shù)據(jù)表示為超圖結(jié)構(gòu),并利用超圖神經(jīng)網(wǎng)絡(luò)(HGNN,hypergraph neural network)來(lái)捕獲流量的空間特征。HGNN能夠更全面地考慮流量數(shù)據(jù)之間的關(guān)系,從而更準(zhǔn)確地表征惡意流量的特征。此外,為了處理流量數(shù)據(jù)的時(shí)間特征,引入了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network),進(jìn)一步提高了分類模型的性能。最終,提取的時(shí)空特征被用于進(jìn)行惡意流量分類,從而幫助檢測(cè)網(wǎng)絡(luò)中的潛在威脅。通過(guò)一系列消融實(shí)驗(yàn),驗(yàn)證了HGNN+RNN模型的有效性,證明其能夠高效提取流量的時(shí)空特征,從而改善了惡意流量的分類性能。在3個(gè)廣泛使用的開(kāi)源數(shù)據(jù)集,即NSL-KDD、UNSW-NB15和CIC-IDS-2017上,模型取得了卓越的分類準(zhǔn)確率,分別達(dá)到了94%、95.6%和99.08%。這些結(jié)果表明,基于超圖神經(jīng)網(wǎng)絡(luò)的惡意流量分類模型在提高網(wǎng)絡(luò)安全水平方面具有潛在的重要意義,有望幫助網(wǎng)絡(luò)安全領(lǐng)域更好地應(yīng)對(duì)不斷演變的網(wǎng)絡(luò)威脅。
惡意流量;網(wǎng)絡(luò)攻擊;超圖神經(jīng)網(wǎng)絡(luò);循環(huán)神經(jīng)網(wǎng)絡(luò)
互聯(lián)網(wǎng)的飛速發(fā)展為人們的生活提供了極大的便利,每天各種聯(lián)網(wǎng)設(shè)備會(huì)產(chǎn)生巨大的流量。然而在真實(shí)網(wǎng)絡(luò)環(huán)境中,除了正常的網(wǎng)絡(luò)流量外,惡意流量也無(wú)所不在[1]。
惡意流量是指通過(guò)網(wǎng)絡(luò)創(chuàng)建或接收的任何可疑鏈接、文件或連接而產(chǎn)生的流量。這些流量通過(guò)在應(yīng)用層攻擊API、網(wǎng)站等,以達(dá)到獲利的目的,也會(huì)損害國(guó)家、企業(yè)及個(gè)人的合法權(quán)益,嚴(yán)重影響互聯(lián)網(wǎng)的安全。惡意流量的類型是多樣的,即使是同一種類型的惡意流量之間也有很大區(qū)別,如網(wǎng)絡(luò)攻擊的流量可以細(xì)分為端口掃描、登錄破解、漏洞利用、DDoS攻擊等類型[2]。
惡意流量的分類是入侵檢測(cè)系統(tǒng)的一個(gè)重要功能,自機(jī)器學(xué)習(xí)模型被應(yīng)用于入侵檢測(cè)以來(lái),研究人員提出了多種基于傳統(tǒng)機(jī)器學(xué)習(xí)的惡意流量分類模型。此類模型將支持向量機(jī)、隨機(jī)森林、遺傳算法等多種機(jī)器學(xué)習(xí)方法與不同的特征選擇方法相結(jié)合,在相關(guān)數(shù)據(jù)集上取得了比較好的效果[3-5]。但是隨著入侵攻擊變得越來(lái)越多樣化,網(wǎng)絡(luò)流量的特征隨之變得復(fù)雜,上述傳統(tǒng)機(jī)器學(xué)習(xí)模型在不同數(shù)據(jù)集上的特征提取方面展現(xiàn)了相當(dāng)大的局限性。
深度學(xué)習(xí)的強(qiáng)大特征表達(dá)能力,可以從訓(xùn)練數(shù)據(jù)的有限特征中發(fā)現(xiàn)新特征,又可以很好地處理復(fù)雜的數(shù)據(jù)集,目前已被廣泛應(yīng)用于圖像處理、音頻處理、自然語(yǔ)言處理等領(lǐng)域[6]。而網(wǎng)絡(luò)流量具有網(wǎng)絡(luò)拓?fù)湫畔?,且惡意流量的分布通常與時(shí)間相關(guān),網(wǎng)絡(luò)流量之間存在互相影響的空間特征和時(shí)間特征,因此可以使用深度學(xué)習(xí)直接學(xué)習(xí)流量數(shù)據(jù)的時(shí)空特征,從而使得流量分類不再依賴特定的特征選擇方法。
為了充分學(xué)習(xí)網(wǎng)絡(luò)流量的時(shí)空特征,本文提出了一種新的惡意流量分類模型,主要工作包含以下3個(gè)方面。
1) 將超圖應(yīng)用于流量分類領(lǐng)域,提出了一種基于超圖神經(jīng)網(wǎng)絡(luò)的惡意流量分類模型。
2) 為網(wǎng)絡(luò)流量數(shù)據(jù)構(gòu)建超圖數(shù)據(jù)結(jié)構(gòu),分別使用超圖神經(jīng)網(wǎng)絡(luò)(HGNN,hypergraph neural network)與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)在超圖的空間和時(shí)間序列角度提取頂點(diǎn)特征,充分使用原有數(shù)據(jù)的空間和時(shí)間序列信息,大大提高了網(wǎng)絡(luò)流量特征的提取能力。
3) 所提模型在3個(gè)代表性的惡意流量數(shù)據(jù)集(NSL-KDD、UNSW-NB15和CIC-IDS-2017)上取得了較好的檢測(cè)效果。實(shí)驗(yàn)結(jié)果表明,所提模型優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型及相關(guān)深度學(xué)習(xí)模型。
惡意流量分類是入侵檢測(cè)系統(tǒng)的重要功能,對(duì)網(wǎng)絡(luò)安全具有重要的現(xiàn)實(shí)意義[7]。研究人員在這方面進(jìn)行了相當(dāng)廣泛的探索,提出了許多基于傳統(tǒng)機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的模型。
流量數(shù)據(jù)的特征較多,且包含部分無(wú)關(guān)特征與冗余特征,因此對(duì)于惡意流量分類這一任務(wù),選擇相對(duì)較好的特征非常重要[8]。許多惡意流量分類模型使用特征選擇技術(shù)對(duì)流量特征進(jìn)行篩選處理后,再進(jìn)行機(jī)器學(xué)習(xí)模型的訓(xùn)練。
Vijayanand等[9]提出了一種基于遺傳算法的特征選擇和支持向量機(jī)分類器的入侵檢測(cè)系統(tǒng),并在CIC-IDS2017數(shù)據(jù)集上取得了較高的準(zhǔn)確率。Lu等[10]首先使用信息增益獲取對(duì)分類結(jié)果影響較大的特征,再結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)與長(zhǎng)短期記憶(LSTM,long short-term memory)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)惡意流量的分類,并使用NSL-KDD數(shù)據(jù)集驗(yàn)證了其方法的有效性。Tang等[11]使用41個(gè)特征中的6 個(gè)基本網(wǎng)絡(luò)特征,使用深度神經(jīng)網(wǎng)絡(luò)在NSL-KDD數(shù)據(jù)集上獲得了75.75%的準(zhǔn)確率。Wang等[12]在CIC-IDS2017數(shù)據(jù)集上首先使用決策樹(shù)生成的特征重要性權(quán)重以選擇特征,然后通過(guò)合成少數(shù)過(guò)采樣技術(shù)(SMOTE,synthetic minority over- sampling technique)優(yōu)化樣本類別的分布,再使用LSTM進(jìn)行數(shù)據(jù)特征的提取及分類。
特征選擇技術(shù)雖然能提高分類效果、降低學(xué)習(xí)任務(wù)的難度,但是不同的數(shù)據(jù)集之間的特征相差較大,同樣的特征選擇方式很難在不同的數(shù)據(jù)集上都取得較好的結(jié)果[13]。為了解決這個(gè)問(wèn)題,研究者嘗試使用深度學(xué)習(xí)提取流量數(shù)據(jù)的特征,以提高網(wǎng)絡(luò)流量的分類能力。
Muna等[14]使用深度前饋神經(jīng)網(wǎng)絡(luò)與深度自編碼器構(gòu)建了異常檢測(cè)系統(tǒng)(ADS,anomaly detection system),使用深度學(xué)習(xí)模型自動(dòng)分析原始網(wǎng)絡(luò)數(shù)據(jù)以發(fā)現(xiàn)其中的異常數(shù)據(jù),在UNSW-NB15數(shù)據(jù)集上取得了不錯(cuò)的效果。Ahmim等[15]針對(duì)CIC-IDS-2017數(shù)據(jù)集提出了一種由3個(gè)分類器組成的混合模型,通過(guò)不同分類器提取不同的特征,再綜合不同分類器的輸出獲得最終的預(yù)測(cè)結(jié)果。這兩種模型使用深度學(xué)習(xí)直接提取流量數(shù)據(jù)的潛在特征,沒(méi)有考慮流量數(shù)據(jù)本身所具有的時(shí)間與空間特性。
針對(duì)時(shí)間特征的提取,Yin等[16]提出了一種基于RNN的入侵檢測(cè)深度學(xué)習(xí)模型,在NSL-KDD數(shù)據(jù)集上的性能上優(yōu)于其他傳統(tǒng)的機(jī)器學(xué)習(xí)模型,表明RNN非常適合入侵檢測(cè)。這種模型雖然有效提取了流量數(shù)據(jù)的時(shí)間特征,但是忽略了流量數(shù)據(jù)的空間特征。
為了充分提取流量數(shù)據(jù)的時(shí)間特征與空間特征,Zhang等[17]提出了使用CNN提取流量數(shù)據(jù)的空間信息、使用LSTM提取時(shí)間特征的模型,在UNSW-NB15數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,其模型有效提高了惡意流量分類的準(zhǔn)確率。同樣,Liu等[18]的模型在流量的時(shí)間特征提取上也使用了LSTM,不同的是在提取流量的空間特征時(shí)使用了簡(jiǎn)化的圖卷積(SGC,simplified graph convolutional)網(wǎng)絡(luò),在UNSW-NB15數(shù)據(jù)集上也取得了較好的結(jié)果。以上模型充分考慮了流量時(shí)間與空間上的特性,但CNN模型往往要求流量數(shù)據(jù)長(zhǎng)度一致,故不能利用全部的數(shù)據(jù),造成部分?jǐn)?shù)據(jù)丟失。Liu等[18]在空間特征的提取方面使用的SGC可以避免數(shù)據(jù)丟失,但由于圖的結(jié)構(gòu)只能表示二元關(guān)系,在對(duì)多元關(guān)系進(jìn)行建模時(shí)往往會(huì)造成信息上的損失[19]。
超圖結(jié)構(gòu)與圖相比可以盡可能地保存多元關(guān)系的高階信息,因此在過(guò)去的幾年里,超圖學(xué)習(xí)在許多領(lǐng)域得到了廣泛的發(fā)展和應(yīng)用。Zhou等[19]最早將超圖結(jié)構(gòu)應(yīng)用于機(jī)器學(xué)習(xí),提出了一種超圖直推學(xué)習(xí)模型,該模型用來(lái)表示超圖結(jié)構(gòu)上的標(biāo)簽傳播過(guò)程,從而可以使用超圖進(jìn)行樣本的分類和聚類。
由于卷積神經(jīng)網(wǎng)絡(luò)在很多領(lǐng)域取得了巨大的成功,受Kipf等[20]在圖結(jié)構(gòu)上提出的圖卷積神經(jīng)(GCN)網(wǎng)絡(luò)的啟發(fā),F(xiàn)eng等[21]在超圖上提出了超圖神經(jīng)網(wǎng)絡(luò),通過(guò)超邊卷積的方法使得超圖的頂點(diǎn)可以獲得鄰居頂點(diǎn)的特征信息,從而提取拓?fù)鋱D的空間特征。
循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)使得其在處理序列信息時(shí)具有較大優(yōu)勢(shì)[22],其隱藏層中的循環(huán)信息使得其在處理數(shù)據(jù)時(shí)充分使用了當(dāng)前狀態(tài)的輸入以及上一狀態(tài)隱藏層的輸出。由于RNN具有強(qiáng)大的序列信息提取能力,目前已經(jīng)被廣泛使用在輸入為序列信息的業(yè)務(wù)場(chǎng)景,因此可以使用RNN提取網(wǎng)絡(luò)流量中存在的時(shí)間特征。在相關(guān)的流量分類模型中[16],基于RNN的模型展現(xiàn)出了強(qiáng)大的時(shí)間特征的提取能力。
綜上所述,本文提出了一種基于超圖神經(jīng)網(wǎng)絡(luò)的惡意流量分類模型,使用超圖神經(jīng)網(wǎng)絡(luò)提取網(wǎng)絡(luò)流量的空間特征,使用RNN提取時(shí)間特征,分別使用NSL-KDD、CIC-IDS-2017與UNSW-NB15數(shù)據(jù)集來(lái)評(píng)估模型對(duì)惡意流量分類的性能,并與其他流量分類模型進(jìn)行對(duì)比。
網(wǎng)絡(luò)流量存在空間與時(shí)間兩個(gè)維度的特征。在對(duì)惡意流量進(jìn)行分類時(shí),充分利用這些信息,可以提高模型識(shí)別正常和惡意流量的性能。為了充分提取流量的時(shí)空特征,本文提出了一種基于超圖神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的惡意流量分類模型,使用HGNN提取流量的空間特征,使用RNN提取流量的時(shí)間特征。圖1為HGNN+RNN模型結(jié)構(gòu)示意,包括輸入層、HGNN層、RNN層和輸出層。輸入層首先對(duì)原始流量數(shù)據(jù)進(jìn)行預(yù)處理,然后為網(wǎng)絡(luò)流量構(gòu)建超圖結(jié)構(gòu),將得到的超圖結(jié)構(gòu)輸入HGNN層,提取其空間特征,將HGNN層的輸出輸入RNN層提取時(shí)間特征。在RNN層之后,通過(guò)輸出層輸出預(yù)測(cè)結(jié)果。
輸入層主要對(duì)原始流量數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理并構(gòu)建超圖結(jié)構(gòu)。其中,數(shù)據(jù)預(yù)處理流程如圖2所示,主要分為采樣、數(shù)據(jù)清洗、標(biāo)簽編碼、數(shù)值歸一化、構(gòu)建超圖5個(gè)步驟。
圖1 HGNN+RNN模型結(jié)構(gòu)示意
Figure 1 Model structure based on HGNN and RNN
數(shù)據(jù)清洗可以清除數(shù)據(jù)集中的不完整、不準(zhǔn)確、有問(wèn)題的數(shù)據(jù)和記錄,提高數(shù)據(jù)集的質(zhì)量。標(biāo)簽編碼的作用是將原始數(shù)據(jù)流量中的非數(shù)字特征轉(zhuǎn)化為數(shù)字特征,保證所有數(shù)據(jù)都是數(shù)值型,方便模型的學(xué)習(xí),同時(shí)可以通過(guò)標(biāo)簽編碼重新劃分樣本的所屬類別,將流量多分類任務(wù)轉(zhuǎn)化為區(qū)分正常與惡意流量的二分類任務(wù)。
流量特征轉(zhuǎn)化為數(shù)值類型后,特征的取值大小不同,容易導(dǎo)致特征空間中樣本點(diǎn)的聚類效果受個(gè)別特征值影響較大,受其他特征值影響較小。為了減小異常值的影響,需要使用歸一化將特征值映射在(0,1]。本文使用最大最小歸一化方法,如式(1)所示。
其中,表示單個(gè)數(shù)據(jù)的取值,是數(shù)據(jù)所在列所有數(shù)據(jù)的最小值,是數(shù)據(jù)所在列所有數(shù)據(jù)的最大值。經(jīng)過(guò)歸一化后的數(shù)據(jù)減小了奇異樣本導(dǎo)致的不良影響,可用于超圖結(jié)構(gòu)的構(gòu)建。
Figure 2 Data preprocessing process
超圖神經(jīng)網(wǎng)絡(luò)層在模型中用于提取流量數(shù)據(jù)空間特征。流量數(shù)據(jù)空間特征指的是數(shù)據(jù)背后的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),用超圖結(jié)構(gòu)來(lái)表示流量數(shù)據(jù)可以盡可能地保留原始流量的拓?fù)湫畔ⅰ?/p>
超圖是普通圖的推廣,與普通圖相比,其最大特點(diǎn)是超圖中的一條邊可以連接兩個(gè)以上的頂點(diǎn),稱為超邊(hyperedge)[23],即超邊是超圖中所有頂點(diǎn)的一個(gè)子集?;诖耍梢詫⒊瑘D定義為式(2)中的形式。
超圖及其關(guān)聯(lián)矩陣如圖3所示。已知超圖中每個(gè)頂點(diǎn)都屬于一個(gè)特定的類,則根據(jù)超圖的關(guān)聯(lián)矩陣和已知類別的頂點(diǎn),就可以預(yù)測(cè)其他頂點(diǎn)所屬的類別。
圖3 超圖及其關(guān)聯(lián)矩陣
Figure 3 Hypergraph and incidence matrix
超邊卷積層示意如圖4所示,HGNN通過(guò)定義在頻譜上的卷積操作,利用頂點(diǎn)?邊?頂點(diǎn)的變換有效地提取超圖上的高階相關(guān)性。Feng等[21]將超邊卷積表示為式(4)的形式。
Figure 4 Schematic of the hyperedge convolution layer
超圖神經(jīng)網(wǎng)絡(luò)利用超邊卷積的方法提取超圖結(jié)構(gòu)中隱含的高階信息,可以利用式(5)構(gòu)建一個(gè)超邊卷積層。
由于超圖神經(jīng)網(wǎng)絡(luò)具有較好的提取空間特征能力,因此使用超圖神經(jīng)網(wǎng)絡(luò)可以充分地提取流量數(shù)據(jù)空間特征,從而提升分類的精度。
循環(huán)神經(jīng)網(wǎng)絡(luò)層在模型中的主要功能是對(duì)流量數(shù)據(jù)進(jìn)行時(shí)序特征的提取。在流量數(shù)據(jù)中,前一個(gè)時(shí)間節(jié)點(diǎn)的流量特征對(duì)于當(dāng)前時(shí)間的數(shù)據(jù)來(lái)說(shuō)是非常重要的,如在拒絕服務(wù)(DoS)攻擊的檢測(cè)中,在較小的時(shí)間范圍內(nèi)會(huì)出現(xiàn)大量異常流量[24]。
圖5 超圖神經(jīng)網(wǎng)絡(luò)中頂點(diǎn)?邊?頂點(diǎn)的轉(zhuǎn)換過(guò)程
Figure 5 Process of the node-edge-node transform in HGNN
與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)不同,RNN可以記憶之前的信息并作用于當(dāng)前的輸出。循環(huán)神經(jīng)網(wǎng)絡(luò)包括輸入單元、輸出單元和隱藏單元,隱藏單元起到記憶信息的重要工作[25]。RNN模型的輸出綜合了從輸入單元到隱藏單元的信息流以及從前一個(gè)狀態(tài)的隱藏單元到當(dāng)前狀態(tài)隱藏單元的信息流,RNN結(jié)構(gòu)示意如圖6所示。
圖6 RNN結(jié)構(gòu)示意
Figure 6 Schematic of RNN structure
由于惡意流量的特征通常與上一時(shí)間的流量狀態(tài)相關(guān),近些年使用RNN處理時(shí)序特征的方法被廣泛應(yīng)用于惡意流量分類[16]。
本文所提模型中,RNN層的輸入來(lái)源于HGNN層的輸出,由于在HGNN層中進(jìn)行了空間特征的提取,各頂點(diǎn)已包含鄰居頂點(diǎn)的信息。經(jīng)過(guò)RNN層之后,又獲得了時(shí)間序列信息,這種特征處理方法使得網(wǎng)絡(luò)充分提取了網(wǎng)絡(luò)流量中潛在的時(shí)間、空間信息。
RNN層處理后的特征即可以用于惡意流量分類模型最終的輸出,將此結(jié)果輸入全連接層,經(jīng)過(guò)softmax函數(shù)即可獲得待分類樣本屬于各類別的概率,再通過(guò)argmax操作即可獲得待測(cè)樣本的預(yù)測(cè)結(jié)果。
本文實(shí)驗(yàn)基于64位Windows 10操作系統(tǒng),CPU為Intel Core i7-10700 @ 2.9 GHz,內(nèi)存為32 GB。算法實(shí)現(xiàn)使用Python 3.6作為基礎(chǔ)語(yǔ)言環(huán)境,使用NumPy 1.19.5 進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換和矩陣運(yùn)算,相關(guān)深度學(xué)習(xí)模型框架的開(kāi)發(fā)基于pytorch 1.10.0版本。
為了驗(yàn)證本文所提模型對(duì)于不同數(shù)據(jù)集的泛化能力,本文選用NSL-KDD、UNSW-NB15和CIC-IDS-2017這3個(gè)廣泛用于流量分類領(lǐng)域的數(shù)據(jù)集[21]。模型在這3個(gè)數(shù)據(jù)集上分別進(jìn)行對(duì)比實(shí)驗(yàn)與消融實(shí)驗(yàn),以驗(yàn)證模型對(duì)惡意流量分類的效果,以及添加RNN模塊對(duì)于模型特征提取能力的提升。
NSL-KDD數(shù)據(jù)集有效解決了KDD Cup 1999 數(shù)據(jù)集的樣本冗余問(wèn)題,同時(shí)調(diào)整了各樣本的比例,使得數(shù)據(jù)集的類別更加均衡[26]。由于測(cè)試集中包含部分訓(xùn)練集中不存在的攻擊類型,因此在NSL-KDD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以很好地體現(xiàn)模型的實(shí)際惡意流量檢測(cè)能力。
UNSW-NB15是澳大利亞網(wǎng)絡(luò)安全中心(ACSC,Australian Cyber Security Centre)的Cyber Range 實(shí)驗(yàn)室于 2015 年使用IXIA PerfectStorm工具生成的新數(shù)據(jù)集,包含真實(shí)的網(wǎng)絡(luò)正常活動(dòng)和攻擊行為[27-31]。該數(shù)據(jù)集由47個(gè)屬性特征和2 個(gè)類別特征組成,包含9種攻擊類型。UNSW-NB15數(shù)據(jù)集的異常行為較為新穎與均衡,適合用于入侵檢測(cè)研究。
CIC-IDS-2017 數(shù)據(jù)集是在真實(shí)的流量中模擬黑客攻擊,并通過(guò)監(jiān)控器收集網(wǎng)絡(luò)中的數(shù)據(jù)流量[32]。該數(shù)據(jù)集涵蓋了非常廣泛的流量,包括基于Web的攻擊、常見(jiàn)滲透攻擊、僵尸網(wǎng)絡(luò)、網(wǎng)絡(luò)掃描等。CIC-IDS-2017數(shù)據(jù)集中的每條數(shù)據(jù)包含79個(gè)特征,更容易提高惡意流量檢測(cè)模型的準(zhǔn)確性。
本文采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)以及1值(1-score)作為評(píng)價(jià)指標(biāo),各指標(biāo)的計(jì)算方法如下。
準(zhǔn)確率描述了正確預(yù)測(cè)的樣本數(shù)與總樣本數(shù)的比值。
精確率描述了預(yù)測(cè)為正的樣本數(shù)與實(shí)際為正的樣本數(shù)的比值。
召回率描述了預(yù)測(cè)為正的樣本數(shù)與所有正樣本數(shù)的比值。
1值是由準(zhǔn)確率和召回率兩個(gè)因素平衡構(gòu)成的綜合因子,是評(píng)價(jià)模型綜合檢測(cè)有效性的有效衡量指標(biāo)。
上述4個(gè)式子中,T(true)和F(false)分別代表正確和錯(cuò)誤分類的樣本,P(positive)和N(negative)分別表示預(yù)測(cè)結(jié)果是正樣本和負(fù)樣本。
數(shù)據(jù)集中的所有樣本可以分為4類:TP、TN、FP和FN。其中,TP表示預(yù)測(cè)標(biāo)簽為正且分類正確,TN表示預(yù)測(cè)標(biāo)簽為負(fù)且分類正確,F(xiàn)P表示預(yù)測(cè)結(jié)果為正且分類錯(cuò)誤,F(xiàn)N表示預(yù)測(cè)結(jié)果為負(fù)且分類錯(cuò)誤。
3.3.1 模型超參數(shù)選擇
以上實(shí)驗(yàn)分別取HGNN與RNN的0~3層搭建模型,考察模型的分類能力及時(shí)間。其中,HGNN層數(shù)取0時(shí),為模型僅使用不同層數(shù)的RNN提取序列特征的情形;RNN層數(shù)取0時(shí),為僅使用不同層數(shù)的HGNN提取空間特征的情形。較為特殊的是,HGNN與RNN均為0層時(shí),輸入數(shù)據(jù)與輸出之間僅有單層全連接層。
表1 HGNN以及RNN層數(shù)下的模型性能表現(xiàn)
通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的分析可知,隨著HGNN與RNN層數(shù)的增加,訓(xùn)練所需的時(shí)間也隨著模型的復(fù)雜程度相應(yīng)增加,但模型的分類能力并沒(méi)有隨著模型模塊層數(shù)的堆疊而展現(xiàn)出更好的水平,圖7展示了在不同參數(shù)組合下,CIC-IDS-2017數(shù)據(jù)集上模型的準(zhǔn)確率分布情況。
圖7 CIC-IDS-2017數(shù)據(jù)集上模型的準(zhǔn)確率分布
Figure 7 Model accuracy distribution on CIC-IDS-2017 dataset
由圖7和表1可得,模型使用1層HGNN與1層RNN的組合時(shí),獲得了最佳的分類效果,更多層的堆疊對(duì)于提升分類效果并沒(méi)有幫助,因此在本文實(shí)驗(yàn)中均采用單層HGNN與單層RNN的參數(shù)組合。
3.3.2 對(duì)比實(shí)驗(yàn)
本文將所提模型與惡意流量分類實(shí)驗(yàn)中常用的機(jī)器學(xué)習(xí)經(jīng)典模型分類回歸樹(shù)(CART,classification and regression tree)、支持向量機(jī)(SVM,support vector machine)、近鄰算法(KNN,-nearest neighbors)以及其他相關(guān)深度學(xué)習(xí)模型對(duì)比,分別考察其在NSL-KDD、UNSW-NB15、CIC-IDS-2017數(shù)據(jù)集上準(zhǔn)確率、精確率、召回率、1值這4個(gè)指標(biāo)的表現(xiàn)。表2給出了NSL-KDD 數(shù)據(jù)集上不同模型的分類性能比較,表中CART、SVM與KNN這3種模型的實(shí)驗(yàn)結(jié)果是在與本文模型相同環(huán)境以及實(shí)驗(yàn)設(shè)置情況下得出,其他模型的實(shí)驗(yàn)結(jié)果均引用自原論文中提供的結(jié)果。
Yin等[16]提出的RNN-IDS獲得了83.28%的準(zhǔn)確率,Tang等[11]使用特征選擇以及深度神經(jīng)網(wǎng)絡(luò)的模型獲得了92.54%的準(zhǔn)確率。結(jié)果表明,本文所提模型在準(zhǔn)確率、精確率上大幅優(yōu)于比較模型,相較表中相應(yīng)指標(biāo)的次優(yōu)結(jié)果分別為94.00%、94.12%,相較表中相應(yīng)指標(biāo)的次優(yōu)結(jié)果分別提升了1.46%、11.54%,雖然召回率指標(biāo)略低于部分比較模型,但是由于受精確率的影響,1值在整體上依然優(yōu)于所有比較模型,達(dá)到了94.06%,相較于SVM模型提升了5.26%??傮w而言,本文模型的綜合性能優(yōu)于上述對(duì)比模型。
表2 NSL-KDD數(shù)據(jù)集上不同模型的分類性能比較
表3給出了UNSW-NB15數(shù)據(jù)集上不同模型的分類性能比較。SGC-LSTM指的是Liu等[18]使用的SGC結(jié)合 LSTM的模型,在UNSW-NB15上的準(zhǔn)確率達(dá)到了91.67%,召回率達(dá)到了89.89%。Muna等[14]提出的ADS結(jié)合了深度前饋神經(jīng)網(wǎng)絡(luò)與深度自編碼器,在此數(shù)據(jù)集上的準(zhǔn)確率為92.40%,召回率為93.00%。本文模型在準(zhǔn)確率、精確率、召回率、1值這4個(gè)指標(biāo)上均優(yōu)于比較模型,相較表中其他模型在相應(yīng)指標(biāo)的次優(yōu)結(jié)果準(zhǔn)確率提升了3.2%,精確率提升2.62%,召回率提升2.46%,1值提升5.32%,分別達(dá)到了95.60%、95.68%、95.46%、95.56%。
表4給出了CIC-IDS-2017數(shù)據(jù)集上不同模型的分類性能比較,Hybrid IDS 是Ahmim等[15]提出的混合分類模型,在此數(shù)據(jù)集上達(dá)到了96.67%的準(zhǔn)確率。SMOTE-LSTM 指的是Wang等結(jié)合少數(shù)過(guò)采樣技術(shù)(SMOTE)與LSTM的分類模型[12],在此數(shù)據(jù)集上的準(zhǔn)確率、精確率、召回率、1值分別為98.90%、98.90%、98.90%、98.90%。在該數(shù)據(jù)集上的多分類的結(jié)果表明,不同模型的4 個(gè)指標(biāo)的表現(xiàn)相對(duì)NSL-KDD、UNSW-NB15都有較大提升,本文模型在準(zhǔn)確率、精確率、召回率、1值這4個(gè)指標(biāo)上領(lǐng)先于比較模型,分別為99.08%、99.09%、99.08%、99.08%。與其他模型在相應(yīng)指標(biāo)的次優(yōu)結(jié)果相比,準(zhǔn)確率提升0.18%,精確率提升0.13%,召回率提升0.18%,1值提升0.18%。
表4 CIC-IDS-2017數(shù)據(jù)集上不同模型的分類性能比較
從3個(gè)數(shù)據(jù)集的整體表現(xiàn)來(lái)看,本文所提模型在準(zhǔn)確率、精確率、召回率、1值上均能取得較好的結(jié)果。與相關(guān)模型相比,本文所提模型無(wú)須針對(duì)特定數(shù)據(jù)集進(jìn)行特別處理,更具有實(shí)際應(yīng)用意義。
3.3.3 消融實(shí)驗(yàn)
消融實(shí)驗(yàn)分別從準(zhǔn)確率、精確率、召回率與1值4個(gè)方面展示了與僅使用HGNN提取流量的空間特征以及僅使用RNN層提取流量的時(shí)間特征用于流量分類相比,使用兩種不同的模型同時(shí)提取空間特征、時(shí)間特征所帶來(lái)的提升,證明模型從兩個(gè)維度進(jìn)行特征提取具有較大優(yōu)勢(shì)。
HGNN模型和RNN模型與同時(shí)使用HGNN+ RNN模型在NSL-KDD、UNSW-NB15、CIC-ID- S-2017數(shù)據(jù)集上的準(zhǔn)確率對(duì)比如圖8所示。HGNN模型準(zhǔn)確率分別為91%、92.40%、96.35%。RNN模型準(zhǔn)確率分別為86.85%、94.45%、94.85%。本文所提模型在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率表現(xiàn)均有所提升,準(zhǔn)確率分別為94.0%、95.6%、99.08%,相較于HGNN模型分別提升了3%、3.2%、2.73%,相較于RNN模型分別提升了7.15%、1.15%、4.23%。
不同數(shù)據(jù)集上的精確率對(duì)比如圖9所示。本文所使用的HGNN+RNN模型在NSL-KDD、UNSW-NB15與CIC-IDS-2017數(shù)據(jù)集上的精確率分別為94.12%、95.68%、99.09%。HGNN模型在3個(gè)數(shù)據(jù)集上的精確率分別為94.19%、92.56%、96.35%。RNN模型在3個(gè)數(shù)據(jù)集上的精確率分別為88.71%、94.46%、93.94%,與HGNN模型相比,HGNN+RNN模型的精確率分別提升了2.63%、3.12%、2.74%,與RNN相比,HGNN+RNN模型的精確率分別提升了5.41%、1.22%、5.15%。
圖8 不同數(shù)據(jù)集上的準(zhǔn)確率對(duì)比
Figure 8 Accuracy comparison of different datasets
圖9 不同數(shù)據(jù)集上的精確率對(duì)比
Figure 9 Precision comparison of different data sets
在召回率方面,在NSL-KDD、UNSW-NB15與CIC-IDS-2017數(shù)據(jù)集上,本文模型相較HGNN模型與RNN模型更具優(yōu)勢(shì)。不同數(shù)據(jù)集上的召回率對(duì)比如圖10所示,HGNN模型在這3個(gè)數(shù)據(jù)集上的召回率分別為90.48%、92.4%、96.35%,RNN模型在這3個(gè)數(shù)據(jù)集上的召回率分別為86.85%、94.45%、94.85%。本文模型的召回率分別為94.0%、95.46%、99.08%,相較于HGNN模型分別提升了3.52%、3.06%、2.73%,相較于RNN模型分別提升了7.15%、1.01%、4.23%。
圖10 不同數(shù)據(jù)集上的召回率對(duì)比
Figure10 Recall comparison of different data sets
1值描述了準(zhǔn)確率和召回率之間調(diào)和平均值的大小,由于在NSL-KDD、UNSW-NB15與CIC-IDS-2017數(shù)據(jù)集上,本文所提模型在精確率與召回率上較HGNN模型以及RNN模型均有所提升,因此1值高于以上兩種模型。不同數(shù)據(jù)集上的1值對(duì)比如圖11所示,在這3個(gè)數(shù)據(jù)集上,HGNN模型的1值分別為90.98%、92.48%、96.28%,RNN模型的1值分別為86.84%、94.45%、93.83%,本文HGNN+RNN模型的1值分別為94.06%、95.56%、99.08%,相較于HGNN模型分別提升了3.08%、3.08%、2.8%,相較于RNN模型分別提升了7.22%、1.11%、5.25%。
圖11 不同數(shù)據(jù)集上的F1值對(duì)比
Figure 111-scorecomparison of different data sets
從整體的實(shí)驗(yàn)結(jié)果來(lái)看,RNN模型與HGNN模型在不同數(shù)據(jù)集上的表現(xiàn)各有所長(zhǎng),這與各個(gè)數(shù)據(jù)集的本身情況不同有關(guān)。HGNN模型與RNN模型的結(jié)合在很大程度上彌補(bǔ)了這一問(wèn)題,同時(shí)在3個(gè)數(shù)據(jù)集的所有指標(biāo)上的性能均有所提升,可以得出HGNN模型結(jié)合RNN模型對(duì)于強(qiáng)化特征表達(dá)能力的作用是巨大的,充分證明了本文所設(shè)計(jì)的使用HGNN提取空間特征、使用RNN提取時(shí)間特征的模型的合理性以及實(shí)際意義。
為了有效進(jìn)行惡意流量分類,本文引入了超圖神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。在本文模型中,對(duì)數(shù)據(jù)從空間、時(shí)間兩個(gè)角度分別使用HGNN與RNN進(jìn)行提取特征,經(jīng)過(guò)與其他現(xiàn)有模型比較,證明將超圖神經(jīng)網(wǎng)絡(luò)用于惡意流量分類是一種有效的模型。
本文通過(guò)消融實(shí)驗(yàn)證明了在包含時(shí)序特征的流量數(shù)據(jù)集上,利用HGNN強(qiáng)大的空間特征提取能力與RNN在處理時(shí)序數(shù)據(jù)方面的優(yōu)勢(shì),可以大大提高網(wǎng)絡(luò)流量分類的能力,具有較好的實(shí)際意義與應(yīng)用價(jià)值。下一步工作將聚焦于真實(shí)的網(wǎng)絡(luò)環(huán)境,多方位考慮可能影響惡意流量分類效果的其他網(wǎng)絡(luò)環(huán)境因素,進(jìn)一步提高入侵檢測(cè)成功率,為網(wǎng)絡(luò)安全提供更加全面的保障。
[1] ROBERTS E. Bad bot report 2020: bad bots strike back[J]. Imperva Blog, 2020.
[2] BHUYAN M H, BHATTACHARYYA D K, KALITA J K. Network anomaly detection: methods, systems and tools[J]. IEEE Communications Surveys & Tutorials, 2013, 16(1): 303-336.
[3] WIDIPUTRA H D. Clustering based intrusion detection for network profiling using-means ecm and-nearest neighbor[J]. Konferensi Nasional Sistem Dan Informatika, 2009: 247-251.
[4] ZANERO S, SAVARESI S M. Unsupervised learning techniques for an intrusion detection system[C]//Proceedings of the 2004 ACM Symposium on Applied Computing. 2004: 412-419.
[5] ALI A, SALEH A, RAMDAN T. Multilayer perceptrons networks for an intelligent adaptive intrusion detection system[J]. International Journal of Computer Science and Network Security, 2010, 10(2): 275.
[6] KWON D, KIM H, KIM J, et al. A survey of deep learning-based network anomaly detection[J]. Cluster Computing, 2019, 22(1): 949-961.
[7] STALLINGS W. Network security essentials: applications and standards[M]. USA: Pearson, 2017.
[8] ZHANG F, WANG D. An effective feature selection approach for network intrusion detection[C]//2013 IEEE Eighth International Conference on Networking, Architecture and Storage. 2013: 307-311.
[9] VIJAYANAND R, DEVARAJ D, KANNAPIRAN B. Intrusion detection system for wireless mesh network using multiple support vector machine classifiers with genetic-algorithm-based feature selection[J]. Computers & Security, 2018, 77: 304-314.
[10] LU X, LIU P, LIN J. Network traffic anomaly detection based on information gain and deep learning[C]//Proceedings of the 2019 3rd International Conference on Information System and Data Mining. 2019: 11-15.
[11] TANG T A, MHAMDI L, MC-LERNON D, et al. Deep learning approach for network intrusion detection in software defined networking[C]//2016 International Conference on Wireless Networks and Mobile Communications (WINCOM). 2016: 258-263.
[12] WANG J H, SEPTIAN T W. Combining oversampling with recurrent neural networks for intrusion detection[C]//International Conference on Database Systems for Advanced Applications. 2021: 305-320.
[13] HUBBALLI N, SURYANARAYANAN V. False alarm minimization techniques in signature-based intrusion detection systems: a survey[J]. Computer Communications, 2014, 49: 1-17.
[14] MUNA A L H, MOUSTAFA N, SITNIKOVA E. Identification of malicious activities in industrial internet of things based on deep learning models[J]. Journal of Information Security and Applications, 2018, 41: 1-11.
[15] AHMIM A, MAGLARAS L, FERRAG M A, et al. A novel hierarchical intrusion detection system based on decision tree and rules-based models[C]//2019 15th International Conference on Distributed Computing in Sensor Systems (DCOSS). 2019: 228-233.
[16] YIN C, ZHU Y, FEI J, et al. A deep learning approach for intrusion detection using recurrent neural networks[J]. IEEE Access, 2017, 5: 21954-21961.
[17] ZHANG J, LING Y, FU X, et al. Model of the intrusion detection system based on the integration of spatial-temporal features[J]. Computers & Security, 2020, 89: 101681.
[18] LIU X, LIU J. Malicious traffic detection combined deep neural network with hierarchical attention mechanism[J]. Scientific Reports, 2021, 11(1): 1-15.
[19] ZHOU D, HUANG J, SCH?LKOPF B. Learning with hypergraphs: clustering, classification, and embedding[C]//Twentieth Annual Conference on Neural Information Processing Systems(NIPS 2006). 2007: 1601-1608.
[20] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[J]. arXiv Preprint arXiv:1609.02907, 2016.
[21] FENG Y, YOU H, ZHANG Z, et al. Hypergraph neural networks[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019: 3558-3565.
[22] KARPATHY A. The unreasonable effectiveness of recurrent neural networks[J]. Andrej Karpathy Blog, 2015, 21: 23.
[23] BERGE C. Hypergraphs: combinatorics of finite sets[M]. Elsevier, 1984.
[24] GASTI P, TSUDIK G, UZUN E, et al. DoS and DDoS in named data networking[C]//2013 22nd International Conference on Computer Communication and Networks (ICCCN). 2013: 1-7.
[25] ZAREMBA W, SUTSKEVER I, VINYALS O. Recurrent neural network regularization[J]. arXiv Preprint arXiv:1409.2329, 2014.
[26] TAVALLAEE M, BAGHERI E, LU W, et al. A detailed analysis of the KDD CUP 99 data set[C]//2009 IEEE Symposium on Computational Intelligence for Security and Defense Applications. 2009: 1-6.
[27] MOUSTAFA N, SLAY J. UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set)[C]//2015 Military Communications and Information Systems Conference (MilCIS). 2015: 1-6.
[28] MOUSTAFA N, SLAY J. The evaluation of network anomaly detection systems: statistical analysis of the UNSW-NB15 data set and the comparison with the KDD99 data set[J]. Information Security Journal: A Global Perspective, 2016, 25(1-3): 18-31.
[29] MOUSTAFA N, SLAY J, CREECH G. Novel geometric area analysis technique for anomaly detection using trapezoidal area estimation on large-scale networks[J]. IEEE Transactions on Big Data, 2017, 5(4): 481-494.
[30] MOUSTAFA N, CREECH G, SLAY J. Big data analytics for intrusion detection system: statistical decision-making using finite dirichlet mixture models[M]//Data Analytics and Decision Support for Cybersecurity. 2017: 127-156.
[31] SARHAN M, LAYEGHY S, MOUSTAFA N, et al. Netflow datasets for machine learning-based network intrusion detection systems[M]//Big Data Technologies and Applications. 2020: 117-135.
[32] SHARAFALDIN I, LASHKARI A H, GHORBANI A A. Toward generating a new intrusion detection dataset and intrusion traffic characterization[C]//ICISSP. 2018: 108-116.
Model of the malicious traffic classification based on hypergraph neural network
ZHAO Wenbo1,2,3, MA Zitong1,2,3, YANG Zhe1,2,3
1. School of Computer Science and Technology, Soochow University, Suzhou 215006, China 2. Provincial Key Laboratory for Computer Information Processing Technology, Suzhou 215006, China 3. Provincial Key Laboratory for Intelligent Engineering in Big Data, Suzhou 215006, China
As the use and reliance on networks continue to grow, the prevalence of malicious network traffic poses a significant challenge in the field of network security. Cyber attackers constantly seek new ways to infiltrate systems, steal data, and disrupt network services. To address this ongoing threat, it is crucial to develop more effective intrusion detection systems that can promptly detect and counteract malicious network traffic, thereby minimizing the resulting losses. However, current methods for classifying malicious traffic have limitations, particularly in terms of excessive reliance on data feature selection. To improve the accuracy of malicious traffic classification, a novel malicious traffic classification model based on Hypergraph Neural Networks (HGNN) was proposed. The traffic data was represented as hypergraph structures and HGNN was utilized to capture the spatial features of the traffic. By considering the interrelations among traffic data, HGNN provided a more accurate representation of the characteristics of malicious traffic. Additionally, to handle the temporal features of traffic data, Recurrent Neural Networks (RNN) was introduced to further enhance the model’s classification performance. The extracted spatiotemporal features were then used for the classification of malicious traffic, aiding in the detection of potential threats within the network. Through a series of ablative experiments, the effectiveness of the HGNN+RNN method was verified. These experiments demonstrate the model’s ability to efficiently extract spatiotemporal features from traffic, resulting in improved classification performance for malicious traffic. The model achieved outstanding classification accuracy across three widely-used open-source datasets: NSL-KDD (94% accuracy), UNSW-NB15 (95.6% accuracy), and CIC-IDS-2017 (99.08% accuracy). These results underscore the potential significance of the malicious traffic classification model based on hypergraph neural networks in enhancing network security and its capacity to better address the evolving landscape of network threats within the domain of network security.
malicious traffic, cyberattack, hypergraph neural network, recurrent neural network
The National Natural Science Foundation of China (62072321), The Project of the Ministry of Education on the Cooperation of Production and Education (220606363154256),The Natural Science Foundation of the Jiangsu Higher Education Institutions of China (20KJB520002),The Future Network Research Foundation of Jiangsu Province (FNSRFP-2021-YB-38), Project Funded by the Priority Academic Program Development of Jiangsu Higher Education Institutions
趙文博, 馬紫彤, 楊哲. 基于超圖神經(jīng)網(wǎng)絡(luò)的惡意流量分類模型[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2023, 9(5): 166-177.
TP399
A
10.11959/j.issn.2096?109x.2023069
趙文博(1998? ),男,安徽淮北人,蘇州大學(xué)碩士生,主要研究方向?yàn)閳D機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)安全、深度學(xué)習(xí)、推薦算法。
馬紫彤(1999?),女,江西贛州人,蘇州大學(xué)碩士生,主要研究方向?yàn)閳D機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)安全、深度學(xué)習(xí)、推薦算法。
楊哲(1978?),男,江蘇蘇州人,博士,蘇州大學(xué)副教授,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全、深度學(xué)習(xí)、智能算法。
2022?09?23;
2023?08?18
楊哲,yangzhe@suda.edu.cn
國(guó)家自然科學(xué)基金(62072321);教育部產(chǎn)學(xué)協(xié)同育人項(xiàng)目(220606363154256);江蘇省高校自然科學(xué)基金(20KJB520002);江蘇省未來(lái)網(wǎng)絡(luò)科研基金(FNSRFP-2021-YB-38);江蘇高校優(yōu)勢(shì)學(xué)科建設(shè)工程資助項(xiàng)目
ZHAO W B, MA Z T, YANG Z. Model of the malicious traffic classification based on hypergraph neural network[J]. Chinese Journal of Network and Information Security, 2023, 9(5): 166-177.