高 兵,鄭 雅,秦 靜,鄒啟杰,汪祖民*
(1.大連大學(xué)信息工程學(xué)院,遼寧大連 116622;2.大連大學(xué)軟件工程學(xué)院,遼寧大連 116622)
近年來(lái),隨著網(wǎng)絡(luò)安全意識(shí)的不斷提高,網(wǎng)絡(luò)入侵檢測(cè)也受到了前所未有的重視。網(wǎng)絡(luò)入侵檢測(cè)通過(guò)對(duì)網(wǎng)絡(luò)流量進(jìn)行識(shí)別分類,及時(shí)發(fā)現(xiàn)異常流量并迅速作出決策。目前存在的兩大難題分別為識(shí)別分類中對(duì)異常流量檢測(cè)精度和檢測(cè)效率的問(wèn)題?;跈C(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類技術(shù)是通過(guò)網(wǎng)絡(luò)流量的統(tǒng)計(jì)特征對(duì)其進(jìn)行分類,而不是利用端口號(hào)和特征碼,從而具有較高的檢測(cè)精度和效率,因此有廣闊的應(yīng)用前景。
基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類根據(jù)不同的應(yīng)用場(chǎng)景可以分為有監(jiān)督分類和無(wú)監(jiān)督分類。有監(jiān)督分類是通過(guò)學(xué)習(xí)樣本類別已知的數(shù)據(jù)集來(lái)構(gòu)建分類模型,可以實(shí)現(xiàn)對(duì)已知的流量類型的高準(zhǔn)確率檢測(cè)。有監(jiān)督分類的代表性方法有分類特征和梯度提升(Categorical features+gradient Boosting,CatBoost)算法、支持向量機(jī)(Support Vector Machine,SVM)、K
-近鄰(K
-Nearest Neighbor,K
NN)、決策樹(shù)等。本文提出基于麻雀搜索算法(Sparrow Search Algorithm,SSA)和改進(jìn)粒子群優(yōu)化(Sparrow Search Algorithm-Particle Swarm Optimization,SSAPSO)的網(wǎng)絡(luò)入侵檢測(cè)算法,對(duì)已證明的輕量級(jí)梯度提升機(jī)(Light Gradient Boosting Machine,LightGBM)進(jìn)行參數(shù)尋優(yōu)建立網(wǎng)絡(luò)入侵檢測(cè)算法。
本文的主要工作為:
1)提出了融合麻雀搜索算法的改進(jìn)粒子群優(yōu)化算法(SSAPSO),在大范圍搜索過(guò)程中保證尋優(yōu)精度的同時(shí)提高收斂速度;
2)設(shè)計(jì)了基于輕量級(jí)分類算法LightGBM 的網(wǎng)絡(luò)入侵檢測(cè)算法,利用SSAPSO 對(duì)LightGBM 算法進(jìn)行參數(shù)尋優(yōu),達(dá)到了更高的檢測(cè)精度。
智能優(yōu)化算法在參數(shù)尋優(yōu)等領(lǐng)域取得了良好的效果。文獻(xiàn)[3]將遺傳算法和粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法相結(jié)合,在屬性特征權(quán)重中更好地對(duì)數(shù)據(jù)集中案例的相似度尋優(yōu),但對(duì)于動(dòng)態(tài)數(shù)據(jù)集的尋優(yōu)精度還未證實(shí);文獻(xiàn)[4]提出一種改進(jìn)的果蠅算法優(yōu)化加權(quán)極限學(xué)習(xí)機(jī)入侵檢測(cè)算法,利用果蠅算法迭代步長(zhǎng)自適應(yīng)來(lái)優(yōu)化加權(quán)極限學(xué)習(xí)機(jī)隱含層輸入權(quán)值和偏置,以避免算法陷入局部最優(yōu);文獻(xiàn)[5]使用基本的PSO 算法優(yōu)化極限學(xué)習(xí)機(jī)的輸入權(quán)重與隱含層偏置參數(shù)并建立分類模型,提高了入侵檢測(cè)的準(zhǔn)確率,但沒(méi)有考慮實(shí)時(shí)性問(wèn)題;文獻(xiàn)[6]使用堆疊稀疏自編碼器對(duì)數(shù)據(jù)集進(jìn)行特征降維,將降維后的數(shù)據(jù)使用LightGBM 算法進(jìn)行訓(xùn)練,在提高了分類的精度的同時(shí)提高了檢測(cè)效率;文獻(xiàn)[7]中使用混沌映射和細(xì)菌覓食算法對(duì)引力搜索算法進(jìn)行改進(jìn),再用改進(jìn)后的引力搜索算法對(duì)SVM分類器的參數(shù)進(jìn)行尋優(yōu);文獻(xiàn)[8]提出一種融合PSO 算法的二進(jìn)制飛蛾撲火優(yōu)化算法,在增強(qiáng)局部搜索能力的同時(shí)避免陷入局部最優(yōu);文獻(xiàn)[9]利用自適應(yīng)PSO 算法優(yōu)化SVM 參數(shù),提高SVM 的分類性能;文獻(xiàn)[10]將SVM 分類器的輸出輸入到另一個(gè)SVM 中訓(xùn)練最終的檢測(cè)模型,得到一個(gè)雙層的SVM 集成入侵檢測(cè)模型。然而,SVM 等算法難以對(duì)入侵行為作出快速反應(yīng)。其次,監(jiān)督學(xué)習(xí)算法網(wǎng)絡(luò)有大量參數(shù)難以整定,影響模型的檢測(cè)精度;文獻(xiàn)[11]將極端梯度提升(eXtreme Gradient Boosting,XGBoost)算法與改進(jìn)PSO 算法相結(jié)合進(jìn)行參數(shù)尋優(yōu),解決連續(xù)多變量?jī)?yōu)化問(wèn)題;文獻(xiàn)[12]采用PSO 算法優(yōu)化XGBoost 對(duì)新冠肺炎的圖像進(jìn)行分類,準(zhǔn)確率有所提升。但是,當(dāng)數(shù)據(jù)量較大時(shí),XGBoost 的復(fù)雜度較高,在空間和時(shí)間上的開(kāi)銷都比較大。
針對(duì)網(wǎng)絡(luò)入侵檢測(cè)的數(shù)據(jù)量大因而計(jì)算開(kāi)銷大且檢測(cè)精度不高的問(wèn)題,本文基于輕量級(jí)分類算法LightGBM 建立網(wǎng)絡(luò)入侵檢測(cè)模型。為了快速整定參數(shù),使模型具備自適應(yīng)訓(xùn)練的能力并獲得更好的檢測(cè)效果,本文將SSA 的大范圍快速收斂特征與PSO 算法結(jié)合,使粒子群中的個(gè)體粒子向最優(yōu)方向加快搜索,利用SSAPSO 對(duì)LightGBM 算法的參數(shù)尋優(yōu),得到最優(yōu)網(wǎng)絡(luò)入侵檢測(cè)算法。
PSO 算法是受鳥群覓食行為啟發(fā),具備全局迭代尋優(yōu)能力的一種群智能優(yōu)化算法。PSO 算法具有結(jié)構(gòu)簡(jiǎn)單、魯棒性好的優(yōu)點(diǎn),常被用于求解最優(yōu)解的問(wèn)題。
在一個(gè)多維空間中,PSO算法賦予種群S
內(nèi)每粒子x
在每一維度上一個(gè)值,每個(gè)粒子都具有速度屬性使其自身在不同維度上的值朝著更優(yōu)方向進(jìn)行更新。在迭代過(guò)程中,算法記錄個(gè)體和群體的最優(yōu)值作為每個(gè)個(gè)體的更新方向,算法流程如下:步驟1 初始化粒子種群的各參數(shù),將位置屬性和速度屬性賦予種群內(nèi)的每一個(gè)粒子。
步驟2 通過(guò)適應(yīng)度函數(shù)F
獲得每個(gè)粒子的適應(yīng)度值,并通過(guò)比較適應(yīng)度值大小獲得全局最優(yōu)值和個(gè)體最優(yōu)值。步驟3 通過(guò)全局最優(yōu)值更新種群內(nèi)各個(gè)粒子的速度和位置,分別用式(1)~(2)表示:
ω
為慣性權(quán)重,用來(lái)調(diào)節(jié)算法的局部搜索能力和全局搜索能力;v
為粒子i
在d
維上的速度;x
為粒子i
在d
維上的位置;c
和c
為加速因子,取值通常為2;r
和r
為[0,1]的隨機(jī)數(shù);p
、p
分別表示第i
個(gè)變量在d
維的個(gè)體最優(yōu)值和全局最優(yōu)值;v
為粒子i
在d
+1維由以上變量更新后的速度;x
為粒子i
在d
+1維由歷史位置x
和速度v
更新位置。SSA 是由Xue 等通過(guò)麻雀的覓食行為提出的一種啟發(fā)式群優(yōu)化算法,與傳統(tǒng)的優(yōu)化算法相比可以更快地收斂。麻雀在覓食的過(guò)程中,作為探索者的麻雀為種群提供搜索方向和區(qū)域,作為追隨者的麻雀通過(guò)探索者的指引進(jìn)行搜索,警戒者麻雀依靠反捕食策略避免種群陷入局部最優(yōu)。
在迭代搜索的過(guò)程中,探索者的位置更新表達(dá)式如式(3)所示:
r
小于安全值ST
時(shí),搜索者進(jìn)行大范圍跳躍式搜索;當(dāng)預(yù)警值r
大于等于安全值ST
時(shí),搜索者移動(dòng)到其他位置進(jìn)行搜索。追隨者的位置更新公式如式(4)所示:
針對(duì)PSO 算法中大范圍搜索過(guò)程中局部搜索能力和搜索精度不夠高的問(wèn)題,引入基本SSA。因?yàn)樘剿髡呗槿赶噍^其他算法搜索范圍更大,并且可以快速更新其位置,可以將發(fā)現(xiàn)者的能力賦予部分粒子群優(yōu)化算法以引導(dǎo)整個(gè)種群,達(dá)到快速收斂的目標(biāo)。算法改進(jìn)的具體流程如下。
步驟1 根據(jù)比例系數(shù)a
確定種群內(nèi)獲得具有探索者麻雀能力的粒子比例。X
|為種群中位置最好的PN
只麻雀,作為探索者粒子;|X
|為種群中位置較差的N-PN
只麻雀,作為跟隨者粒子。步驟2 大范圍搜索的環(huán)境下,設(shè)成為探索者的粒子的預(yù)警值r
恒小于安全值ST
,此時(shí)探索者粒子進(jìn)行大范圍跳躍式搜索,根據(jù)式(6)來(lái)更新探索者粒子的能力。rr
,如式(7)所示,改變粒子過(guò)去位置和速度對(duì)現(xiàn)在的影響。由式(8)~(9)更新跟隨者粒子的速度和位置。
通過(guò)在PSO 算法中引入SSA,解決基本PSO 算法容易陷入局部最優(yōu)、后期尋優(yōu)的收斂速度慢和精度低等問(wèn)題,SSAPSO 利用麻雀大范圍快速搜索能力,提升粒子群收斂速度,提高算法的性能。
LightGBM 是在梯度提升決策樹(shù)(Gradient Boosting Decision Tree,GBDT)算法框架下的一種改進(jìn)實(shí)現(xiàn),是一種基于Histogram 決策樹(shù)算法的快速、分布式、高性能的GBDT框架。在2016 年由微軟提出,憑借更快的訓(xùn)練速度和更低的計(jì)算資源消耗的優(yōu)點(diǎn)被廣泛應(yīng)用。同其他提升算法一樣,該算法將多個(gè)弱分類器提升為具有強(qiáng)分類效果的強(qiáng)分類器,可用于網(wǎng)絡(luò)入侵檢測(cè)中的異常流量檢測(cè)。
目標(biāo)函數(shù)h
(x
)如式(10)所示:L
為損失函數(shù),Ω 為正則項(xiàng),y
為預(yù)測(cè)值。模型通過(guò)損失函數(shù)和正則項(xiàng)來(lái)控制模型的精度和復(fù)雜度。模型通過(guò)負(fù)梯度來(lái)擬合損失,目標(biāo)函數(shù)通過(guò)泰勒展開(kāi)式可以獲得,如式(11)所示:C
為常數(shù)項(xiàng)。將目標(biāo)函數(shù)簡(jiǎn)化后可以獲得式(12):傳統(tǒng)的教學(xué)注重知識(shí)的灌輸,教學(xué)形式單一,教學(xué)內(nèi)容枯燥乏味,學(xué)生在學(xué)習(xí)中極易形成疲勞和厭煩感,不利于學(xué)生學(xué)習(xí)成績(jī)的提高。小學(xué)數(shù)學(xué)教師可以把多媒體教學(xué)引入數(shù)學(xué)課堂上,利用其鮮明的色彩即視感以及生動(dòng)形象的視聽(tīng)效果,使數(shù)學(xué)課堂充滿新鮮感和趣味性,這樣,可以有效地激發(fā)學(xué)生的學(xué)習(xí)興趣,使得學(xué)生興致十足地投入到數(shù)學(xué)學(xué)習(xí)中去,從而提高小學(xué)數(shù)學(xué)的教學(xué)效果。
在網(wǎng)絡(luò)入侵檢測(cè)模型訓(xùn)練過(guò)程中,LightGBM 算法相較于GBDT 算法有著較快的訓(xùn)練速度并且尋優(yōu)精度更高,以及高效的并行計(jì)算速度。然而,由于計(jì)算復(fù)雜度過(guò)高等問(wèn)題,會(huì)出現(xiàn)決策樹(shù)加深現(xiàn)象,從而產(chǎn)生過(guò)擬合。
另外,由于LightGBM 算法最優(yōu)切分變量,在模型參數(shù)尋找最優(yōu)解的過(guò)程中,無(wú)法適應(yīng)大范圍快速參數(shù)尋優(yōu)場(chǎng)景。針對(duì)以上問(wèn)題提出SSAPSO-LightGBM 算法。SSAPSOLightGBM 算法首先對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)集進(jìn)行預(yù)處理,將源文件轉(zhuǎn)換成數(shù)字標(biāo)識(shí)的函數(shù)。用預(yù)處理后的測(cè)試集檢測(cè)SSAPSO,將該數(shù)據(jù)集上的檢測(cè)精度作為適應(yīng)度值返回。模型流程如圖1 所示。
圖1 SSAPSO-LightGBM算法模型Fig.1 SSAPSO-LightTGBM algorithm model
然后利用SSAPSO 大范圍快速搜索能力,對(duì)LightGBM 中難以整定的參數(shù)進(jìn)行快速尋優(yōu),使PSO 算法在保證尋優(yōu)精度的同時(shí)快速收斂,并得到最優(yōu)的網(wǎng)絡(luò)入侵檢測(cè)算法。最后,通過(guò)測(cè)試集對(duì)得到的最優(yōu)網(wǎng)絡(luò)入侵檢測(cè)算法進(jìn)行測(cè)試。
LightGBM 算法中包含很多參數(shù),參數(shù)的不同取值對(duì)分類的結(jié)果都會(huì)造成一定的影響。使用SSAPSO 對(duì)LightGBM的參數(shù)進(jìn)行尋優(yōu),以獲得更好的檢測(cè)精度和檢測(cè)速度。設(shè)定需要被尋優(yōu)的參數(shù)如表1 所示。
表1 LightGBM尋優(yōu)參數(shù)Tab 1 LightGBM optimization parameter
其中:max_depth 參數(shù)用來(lái)限制樹(shù)的深度,min_data_in_leaf 參數(shù)用來(lái)處理leaf_wise 樹(shù)的過(guò)擬合問(wèn)題,通過(guò)設(shè)置feature_fraction 參數(shù)來(lái)使用特征采樣加快訓(xùn)練速度。
SSAPSO-LightGBM 算法主要分為四個(gè)步驟:
步驟1 數(shù)據(jù)預(yù)處理。
將入侵檢測(cè)數(shù)據(jù)集進(jìn)行歸一化等數(shù)據(jù)預(yù)處理,劃分為訓(xùn)練數(shù)據(jù)集、適應(yīng)度測(cè)試數(shù)據(jù)集以及測(cè)試數(shù)據(jù)集。訓(xùn)練集包括了22 種類型的入侵攻擊,測(cè)試集中則出現(xiàn)了17 種訓(xùn)練集中沒(méi)有的入侵攻擊。
2)標(biāo)準(zhǔn)化處理。計(jì)算公式如式(13)所示:
x
表示特征值;μ
為所有樣本數(shù)據(jù)的均值;λ
為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差;x
表示每個(gè)數(shù)據(jù)樣本該維特征標(biāo)準(zhǔn)化后的結(jié)果。3)歸一化處理。計(jì)算公式如式(14)所示:
c
=c
=2,ω
=0.9,空間維度dim
=30,解空間范圍為[-10,10]。步驟3 通過(guò)SSAPSO,使用適應(yīng)度測(cè)試數(shù)據(jù)集來(lái)進(jìn)行檢測(cè),將該數(shù)據(jù)集上的檢測(cè)準(zhǔn)確率作為適應(yīng)度值返回。根據(jù)適應(yīng)度值不斷迭代最優(yōu)個(gè)體和當(dāng)前的全局最優(yōu)解,判斷是否達(dá)到終止條件:若達(dá)到,得到最優(yōu)參數(shù);否則對(duì)粒子的速度和位置進(jìn)行更新,逐步迭代建立最優(yōu)檢測(cè)模型。
步驟4 利用訓(xùn)練集數(shù)據(jù)訓(xùn)練LightGBM分類器,將測(cè)試集數(shù)據(jù)在最優(yōu)檢測(cè)模型上進(jìn)行測(cè)試,對(duì)模型分類效果進(jìn)行驗(yàn)證,并調(diào)整分類器參數(shù),以達(dá)到最優(yōu)意義下的各項(xiàng)參數(shù),輸出測(cè)試結(jié)果。
4.1.1 入侵檢測(cè)數(shù)據(jù)集
為驗(yàn)證模型的檢測(cè)效果,本文選擇經(jīng)典的入侵檢測(cè)數(shù)據(jù)集KDDCUP99進(jìn)行實(shí)驗(yàn),訓(xùn)練集和測(cè)試集信息如表2 所示。該數(shù)據(jù)集具有41 維特征,分為四種攻擊類型及一種正常類型,分別為拒絕服務(wù)(Denial of Service,DoS)攻擊、未授權(quán)遠(yuǎn)程訪問(wèn)(Remote-to-Login,R2L)攻擊、未授權(quán)本地訪問(wèn)(User-to-Root,U2R)攻擊及監(jiān)聽(tīng)(Probeing,PROBE)攻擊,以及一種正常流量(Normal)。攻擊類型詳細(xì)描述如下:
1)DoS 攻擊:攻擊者占用處理有效請(qǐng)求所需的計(jì)算資源或內(nèi)存資源,使得系統(tǒng)無(wú)法應(yīng)答正常的用戶請(qǐng)求。
2)R2L 攻擊:攻擊者遠(yuǎn)程非授權(quán)接入系統(tǒng),使用有效用戶賬戶。
3)U2R 攻擊:攻擊者遠(yuǎn)程接入網(wǎng)絡(luò),并非法獲得超級(jí)用戶權(quán)限,使用有效用戶賬戶。
4)PROBE 攻擊:攻擊者試圖獲得計(jì)算機(jī)網(wǎng)絡(luò)相關(guān)信息。
表2 給出了KDDCUP99 數(shù)據(jù)集的詳細(xì)信息。本文隨機(jī)抽取了5 000 條數(shù)據(jù)進(jìn)行實(shí)驗(yàn),其中3 500 條為訓(xùn)練集,1 500 條為測(cè)試集。
表2 KDDCUP99的訓(xùn)練集和測(cè)試集信息Tab 2 Information in KDDCUP99 training and test dataset
4.1.2 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)硬件環(huán)境采用Intel Core i7-7600 CPU+GeForce GTX 1060+16 GB 內(nèi)存;軟件環(huán)境使用Anaconda3-5.3.1+Python 3.6.1。
4.2.1 SSAPSO的性能測(cè)試
為驗(yàn)證SSAPSO 的優(yōu)化性能,本文使用Step 函數(shù)、Sphere函數(shù)、Schwefel2.22 函數(shù)和Rastrigin 函數(shù)等單多峰值函數(shù)測(cè)試SSAPSO 性能。其中Step 函數(shù)、Sphere 函數(shù)、Schwefel2.22函數(shù)為單峰值函數(shù),適合檢驗(yàn)改進(jìn)算法在大范圍搜索環(huán)境下的收斂速度;Rastrigin 函數(shù)作為多峰值函數(shù),適合檢驗(yàn)算法的尋優(yōu)精度。表3 給出了4 個(gè)函數(shù)的函數(shù)表達(dá)式及其變量的取值范圍、維數(shù)和最優(yōu)值等變量。
表3 測(cè)試函數(shù)變量Tab 3 Test function variable
將SSAPSO 與基本的PSO 算法分別在Step 函數(shù)、Sphere函數(shù)、Schwefel2.22 函數(shù)、Rastrigin 函數(shù)等單多峰值函數(shù)上進(jìn)行比較,通過(guò)互不干擾的500 次迭代,尋優(yōu)結(jié)果如圖2 所示。
如圖2(a)、(b)所示,在Step函數(shù)、Sphere函數(shù)上,SSAPSO 的收斂速度明顯優(yōu)于基本的PSO 算法且都找到最優(yōu)值;如圖2(c)所示,在Schwefel2.22 函數(shù)上,SSAPSO 可以跳出局部最優(yōu),并能快速收斂,基礎(chǔ)的PSO 算法在50 次左右收斂,但SSAPSO 的收斂速度明顯更快;如圖2(d)所示,在Rastrigin 函數(shù)上,SSAPSO 在500 次迭代中快速收斂,而PSO算法明顯在500 次迭代中沒(méi)有達(dá)到最優(yōu)。因此SSAPSO 在收斂速度和精度上相較于基本PSO 算法的性能更優(yōu)越。
圖2 SSAPSO與PSO優(yōu)化效果對(duì)比Fig.2 Comparison of optimization effect between SSAPSO and PSO
4.2.2 SSAPSO優(yōu)化LightGBM效果展示
在對(duì)LightGBM 參數(shù)優(yōu)化過(guò)程中,將基本PSO 算法和SSAPSO 作對(duì)比。通過(guò)50 次迭代,判斷PSO 算法和SSAPSO優(yōu)化LightGBM 算法的收斂速度和準(zhǔn)確率,結(jié)果如圖3 所示。
圖3 PSO和SSAPSO收斂速度和準(zhǔn)確率對(duì)比Fig.3 Comparison of convergence speed and accuracy between PSO and SSAPSO
由圖3 可知,在收斂速度上,SSAPSO 在20 次左右完成收斂,計(jì)算開(kāi)銷為0.525 s,相較于PSO 算法,SSAPSO 的收斂速度更快且尋優(yōu)精度更高,準(zhǔn)確率達(dá)到99.67%。因此,在對(duì)LightGBM 的參數(shù)尋優(yōu)這一應(yīng)用過(guò)程中,改進(jìn)的SSAPSO 優(yōu)于基本PSO 算法。
4.2.3 SSAPSO優(yōu)化LightGBM檢測(cè)準(zhǔn)確率展示
在本文實(shí)驗(yàn)中,根據(jù)模型檢測(cè)樣本類別和樣本實(shí)際類別進(jìn)行計(jì)算,采用準(zhǔn)確率(Accuracy,Acc)、召回率(Recall)、精確率(Precision,Pre)和F1 指數(shù)(F1_score)作為檢測(cè)各類攻擊效果的評(píng)價(jià)指標(biāo)。各指標(biāo)的計(jì)算公式分別如下:
TP、TN、FP、FN
中第一個(gè)字母表示分類器識(shí)別結(jié)果是否正確,正確用True 的首字母T 表示,錯(cuò)誤用False 的首字母F 表示;第二個(gè)字母表示分類器的判定結(jié)果;P 表示分類器判定為正樣本(Positive Sample),N 表示分類器判定為負(fù)樣本(Negative Sample),在這里攻擊類樣本是正樣本,正常樣本為負(fù)樣本。TP
(True-Positive)表示分類器對(duì)攻擊類樣本識(shí)別正確的個(gè)數(shù),TN
(True-Negative)表示分類器對(duì)正常樣本識(shí)別正確的個(gè)數(shù),FN
(False-Negative)表示分類器將攻擊類樣本檢測(cè)為正常樣本的個(gè)數(shù),FP
(False-Positive)表示分類器將正常樣本檢測(cè)為攻擊類樣本的個(gè)數(shù)。表4 給出了多個(gè)分類算法使用KDDCUP99 數(shù)據(jù)集的運(yùn)行結(jié)果。由表4 可知,SSAPSO-LightGBM 算法的準(zhǔn)確率、召回率、精確率和F1 指數(shù)都高于其他三種分類算法。SSAPSOLightGBM 算法對(duì)比CatBoost 算法得出的準(zhǔn)確率、召回率、精確率和F1 指數(shù)分別提升了15.12%、3.25%、21.26% 和12.25%,召回率高則漏報(bào)率低。由此可見(jiàn),SSAPSOLightGBM 算法對(duì)于攻擊樣本具有更好的特征表達(dá),能更準(zhǔn)確地對(duì)特征進(jìn)行分類,從而有利于對(duì)入侵檢測(cè)更高效、更準(zhǔn)確地進(jìn)行判別。
表4 分類算法檢測(cè)準(zhǔn)確率 單位:%Tab 4 Classification algorithm detection accuracy unit:%
然后,對(duì)本文研究測(cè)試數(shù)據(jù)集中的5 類數(shù)據(jù)(一種正常,四種異常),采用SSAPSO-LightGBM 算法、基本LightGBM 算法、CatBoost 算法和K
NN 算法進(jìn)行網(wǎng)絡(luò)入侵檢測(cè)對(duì)比,檢測(cè)結(jié)果如表5 所示。由表5 可知,SSAPSO-LightGBM 算法對(duì)Normal 檢測(cè)準(zhǔn)確率高達(dá)99.60%,對(duì)R2L 的準(zhǔn)確率高達(dá)98.40%,對(duì)U2R 的準(zhǔn)確率高達(dá)97.00%,對(duì)PROBE 的準(zhǔn)確率高達(dá)96.00%。SSAPSO-LightGBM 算法對(duì)數(shù)據(jù)集中Normal、R2L、U2R、PROBE的檢測(cè)準(zhǔn)確率相較于LightGBM算法分別提升了0.61%、3.14%、4.24%、1.04%和5.03%。但在對(duì)DoS的檢測(cè)中,SSAPSO-LightGBM算法的檢測(cè)精度略低于CatBoost算法,但也高達(dá)98.4%。CatBoost在各類型準(zhǔn)確率的表現(xiàn)上與LightGBM相近,但在實(shí)際的應(yīng)用中,LightGBM算法的輕量化已經(jīng)得到證明。因此,與其他算法相比,SSAPSO-LightGBM更加適合入侵檢測(cè)。表5 分類算法的網(wǎng)絡(luò)入侵檢測(cè)準(zhǔn)確率對(duì)比 單位:%Tab 5 Comparison of network intrusion detection accuracy among classification algorithms unit:%
針對(duì)網(wǎng)絡(luò)入侵檢測(cè)中LightGBM 算法訓(xùn)練模型難以快速整定參數(shù)的問(wèn)題,本文使用SSA 中的大范圍快速搜索能力對(duì)PSO 算法進(jìn)行改進(jìn),并使用SSAPSO 對(duì)LightGBM 算法參數(shù)進(jìn)行尋優(yōu),建立SSAPSO-LightGBM。通過(guò)對(duì)比,SSAPSOLightGBM 檢測(cè)精度高于其他算法,且其輕量化的特點(diǎn)適合對(duì)入侵檢測(cè)進(jìn)行分類應(yīng)用。未來(lái)的研究中,可以使用深度學(xué)習(xí)的相關(guān)算法進(jìn)一步挖掘數(shù)據(jù)關(guān)系,建立更加智能化的模型。