李響 繆祥華 張如雪 張宣琦
摘 要 以往利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)搭建入侵檢測模型時(shí),需用人工經(jīng)驗(yàn)設(shè)定網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)致其網(wǎng)絡(luò)性能很難發(fā)揮最優(yōu)。為此,提出利用哈里斯鷹算法(HHO)對CNN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行自適應(yīng)優(yōu)化,構(gòu)建入侵檢測模型。首先針對傳統(tǒng)CNN全連接層易發(fā)生過擬合的問題,采用全局池化層(GAP)對參數(shù)進(jìn)行縮減;然后采用哈里斯鷹算法選取CNN最佳網(wǎng)絡(luò)結(jié)構(gòu),避免人工干預(yù)引起的檢測不確定性,從而縮短參數(shù)選擇時(shí)間,提升入侵檢測模型的適用性和入侵檢測性能。在NSL-KDD數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明:所提哈里斯鷹算法優(yōu)化改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的入侵檢測模型,檢測準(zhǔn)確率93.68%,誤報(bào)率1.65%,檢測性能優(yōu)于SVM、AdaBoost、BP入侵檢測模型。
關(guān)鍵詞 入侵檢測 HHO-GCNN模型 卷積神經(jīng)網(wǎng)絡(luò) 哈里斯鷹算法 自適應(yīng)優(yōu)化 全局池化層? ? NSL-KDD數(shù)據(jù)集
中圖分類號(hào) TP393.08? ?文獻(xiàn)標(biāo)識(shí)碼 A? ?文章編號(hào) 1000-3932(2023)04-0513-08
隨著科學(xué)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)幾乎成為生產(chǎn)和生活中不可或缺的部分。網(wǎng)絡(luò)給人類帶來便利的同時(shí),越來越多的網(wǎng)絡(luò)安全事件頻發(fā),因此,有效維護(hù)網(wǎng)絡(luò)安全是國內(nèi)外研究人員一直關(guān)注的重要課題。入侵檢測作為網(wǎng)絡(luò)安全防護(hù)的有效手段被廣泛研究,傳統(tǒng)的入侵檢測系統(tǒng)易受時(shí)間復(fù)雜度和空間復(fù)雜度的制約,導(dǎo)致其自適應(yīng)能力較差。因此,許多研究人員將機(jī)器學(xué)習(xí)引入入侵檢測中,針對不同攻擊類型提出了多種類型的檢測模型,但仍存在一系列的問題[1]:首先,機(jī)器學(xué)習(xí)模型在檢測準(zhǔn)確率上效果一般并存在較高的誤報(bào)率;其次,在進(jìn)行大規(guī)模數(shù)據(jù)流量處理時(shí),并不能表現(xiàn)出良好的性能。而深度學(xué)習(xí)在進(jìn)行大數(shù)據(jù)分析處理時(shí)取得了較好的成效,因此越來越多的深度學(xué)習(xí)技術(shù)被運(yùn)用到入侵檢測中,目前主流的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[2,3]、長短期記憶(Long Short-Term Memory,LSTM)[4]、自編碼(Auto Encoder,AE)[5,6]和生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[7,8]。
作為深度學(xué)習(xí)的經(jīng)典有效網(wǎng)絡(luò)CNN,在進(jìn)行多種分類時(shí)需要對數(shù)據(jù)集進(jìn)行預(yù)處理,將其轉(zhuǎn)換為符合CNN輸入的灰度圖進(jìn)行訓(xùn)練,將其運(yùn)用到入侵檢測可將流量分類問題近似于圖片分類,通過CNN提取數(shù)據(jù)流量特征,基于其權(quán)值共享特性提高分類處理效率,進(jìn)而提高入侵檢測效率。文獻(xiàn)[9]提出將主成分分析(PCA)方法降維與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,PCA對數(shù)據(jù)進(jìn)行清洗降維減少了數(shù)據(jù)的冗余,將降維后的數(shù)據(jù)輸入到CNN中進(jìn)行數(shù)據(jù)特征提取和分類。文獻(xiàn)[10]在進(jìn)行入侵檢測模型構(gòu)建時(shí),采用自編碼器進(jìn)行特征提取,將提取后的特征矩陣進(jìn)行聚類轉(zhuǎn)換再放入CNN模型中進(jìn)行訓(xùn)練。文獻(xiàn)[11]提出生成對抗網(wǎng)絡(luò)結(jié)合CNN的入侵檢測模型,由生成對抗網(wǎng)絡(luò)生成未知攻擊,以達(dá)到平衡數(shù)據(jù)的效果,最后將平衡后的數(shù)據(jù)放入CNN模型中進(jìn)行訓(xùn)練。以上由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的入侵檢測模型,在進(jìn)行數(shù)據(jù)流量分類處理時(shí)都取得了較好的成效。筆者采用CNN作為算法優(yōu)化模型,使其入侵檢測性能進(jìn)一步提升。
1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
2 哈里斯鷹算法
哈里斯鷹算法(Harris Hawk Optimization,HHO)是由HEIDARI A A等提出的一種元啟發(fā)式智能優(yōu)化算法[12]。HHO算法通過公式演練模擬哈里斯鷹在不同情況下捕捉獵物的策略。
HHO算法主要分為3個(gè)階段,分別為全局探索階段、過渡階段和局部開發(fā)階段。
2.1 全局探索階段
2.2 過渡階段
2.3 局部開發(fā)階段
3 入侵檢測模型整體流程
3.1 數(shù)據(jù)預(yù)處理階段
3.2 HHO-GCNN模型
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)數(shù)據(jù)
本項(xiàng)目實(shí)驗(yàn)選用的是NSL-KDD入侵檢測數(shù)據(jù)集,該數(shù)據(jù)集包含多種現(xiàn)代網(wǎng)絡(luò)攻擊,訓(xùn)練集樣本數(shù)量有125 973條數(shù)據(jù),測試集有22 543條數(shù)據(jù)樣本,數(shù)據(jù)集包含42維數(shù)據(jù)特征,前41列為屬性特征,第42列為類別標(biāo)簽。NSL-KDD數(shù)據(jù)集的訓(xùn)練測試樣本分布見表1。
4.2 實(shí)驗(yàn)環(huán)境與評價(jià)標(biāo)準(zhǔn)
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 不同分類層對模型性能的影響
4.3.2 HHO算法模型優(yōu)化
采用HHO算法對CNN和GCNN參數(shù)尋優(yōu)時(shí)模型的訓(xùn)練和驗(yàn)證損失變化如圖4所示。其中,HHO算法初始種群規(guī)模30,最大迭代次數(shù)40,模型訓(xùn)練時(shí)選取訓(xùn)練集的20%作為驗(yàn)證集。以網(wǎng)絡(luò)的交叉熵?fù)p失loss值作為適應(yīng)度值,網(wǎng)絡(luò)的損失越小則適應(yīng)度越高結(jié)果越優(yōu)。
由圖4a、b可知,HHO-GCNN模型在迭代20次左右時(shí)滿足收斂精度,而HHO-CNN模型在迭代35次左右時(shí)滿足收斂精度,可見HHO-GCNN模型相比于HHO-CNN模型的收斂速度快,并且HHO-GCNN模型收斂的loss值低于HHO-CNN模型的loss值。綜上所述,采用GAP層進(jìn)行參數(shù)縮減后,HHO算法進(jìn)行適應(yīng)度值調(diào)優(yōu)的精度和效率高于傳統(tǒng)CNN適應(yīng)度值調(diào)優(yōu)。
HHO-GCNN和HHO-CNN兩種模型優(yōu)化后的檢測性能比較見表4,可以看出,HHO-GCNN模型的ACC值為93.68%,Precision值達(dá)到95.67%,Recall值和F1-score分別為92.53%和94.04%,相比于HHO-CNN模型,各參數(shù)指標(biāo)均有提升。HHO-GCNN模型的誤報(bào)率FPR相比于HHO-CNN降低0.76%。各項(xiàng)指標(biāo)的實(shí)驗(yàn)數(shù)據(jù)表明:HHO-GCNN模型在檢測性能上均優(yōu)于HHO-CNN模型。HHO-GCNN相比于未進(jìn)行優(yōu)化的GCNN模型在準(zhǔn)確率上提升了4.74%,HHO-CNN模型相比于未進(jìn)行優(yōu)化的CNN模型在準(zhǔn)確率上提升了2.49%??梢?,采用GAP層代替全連接層對HHO算法進(jìn)行尋優(yōu)空間縮減有利于提升模型的檢測性能。
4.3.3 不同分類模型對比
5 結(jié)束語
筆者針對傳統(tǒng)CNN網(wǎng)絡(luò)參數(shù)設(shè)置不當(dāng)易產(chǎn)生參數(shù)爆炸發(fā)生過擬合導(dǎo)致檢測性能不佳的問題,提出HHO-GCNN檢測模型。采用GAP層替代全連接層進(jìn)行參數(shù)縮減,避免了參數(shù)量過大模型所致的過擬合情況;采用HHO算法對改進(jìn)后的GCNN網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行自適應(yīng)優(yōu)化。通過哈里斯鷹算法采取不同策略對適應(yīng)度值進(jìn)行捕捉。實(shí)驗(yàn)結(jié)果表明:采用GAP層進(jìn)行縮減網(wǎng)絡(luò)參數(shù),能夠在一定程度上提升CNN模型的分類性能;采用HHO算法進(jìn)行優(yōu)化,能夠使GCNN網(wǎng)絡(luò)進(jìn)行自適應(yīng)優(yōu)化,提升了入侵檢測性能,避免了人工干預(yù)導(dǎo)致的檢測結(jié)果不確定性。
后續(xù)的工作重點(diǎn)將針對不同種類的入侵檢測數(shù)據(jù)集的數(shù)據(jù)不平衡問題提出解決方案,對數(shù)據(jù)集中少數(shù)類樣本過采樣處理后進(jìn)行模型訓(xùn)練,進(jìn)而增強(qiáng)模型的泛化能力。
參 考 文 獻(xiàn)
[1] 劉新倩,單純,任家東,等.基于流量異常分析多維優(yōu)化的入侵檢測方法[J].信息安全學(xué)報(bào),2019,4(1):14-26.
[2] LIU P J.An intrusion detection system based on convolutional neural network[C]//Proceedings of the 2019 11th International Conference on Computer and Automation Engineering,2019:62-67. DOI:10.1109/ICCSN T47585.2019.8962490.
[3] 黎佳升,趙波,李想,等.基于深度學(xué)習(xí)的網(wǎng)絡(luò)流量異常預(yù)測方法[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(6):39-50.
[4] HOCHREITER S,SCHMIDHUBER J.Long Short-term memory[J].Neural-Computation,1997,9(8):1735-1780.
[5] BALDI P.Autoencoders,unsupervised learning,and deep? architectures[C]//Proceedings of ICML Workshop on Unsupervised and Transfer Learning.JMLR Workshop and Conference Proceedings,2012:37-49.
[6] 高妮,高嶺,賀毅岳,等.基于自編碼網(wǎng)絡(luò)特征降維的輕量級(jí)入侵檢測模型[J].電子學(xué)報(bào),2017,45(3):730-739.
[7] LEE J H,PARK K H.GAN-based imbalanced data intrusion detection system[J].Personal and Ubiquitous Computing,2021,25(1):121-128.
[8] FERDOWSI A,SAAD W.Generative adversarial networks for distributed intrusion detection in the internet of things[C]//2019 IEEE Global Communications Conference(GLOBECOM),2019:1-6.DOI:10.1109/GLOBECOM 384 3 7.2019.9014102.
[9] XIAO Y H,XING C,ZHANG T N,et al.An intrusion detection model based on feature reduction and convolutional neural networks[J].IEEE Access,2019(7):42210-42 219.
[10] ANDRESINI G,APPICE A,MALERBA D.Nearest cluster-based intrusion detection through convolutional neural networks[J].Knowledge-Based Systems,2021,216:10 6798.
[11] ANDRESINI G,APPICE A,DE ROSE L,et al.GAN a-?ugmentation to deal with imbalance in imaging-based intrusion detection[J].Future Generation Computer Systems,2021,123:108-127.
[12] HEIDARI A A,MIRJALILI S,F(xiàn)ARIS H,et al.Harris hawks optimization:Algorithm and applications[J].Future Generation Computer Systems,2019,97:849-872.
(收稿日期:2022-11-18,修回日期:2023-01-10)
Research on Intrusion Detection Using Harris Hawk Algorithm to Optimize Convolutional Neural Network
LI Xianga , MIAO Xiang-huaa,b , ZHANG Ru-xuea, ZHANG Xuan-qia
(a. Faculty of Information Engineering and Automation; b. Yunnan Key Laboratory of Computer Technology Applications, Kunming University of Science and Technology)
Abstract? ?In the past, having convolutional neural networks(CNN) adopted to build intrusion detection models asks for artificial experience to set the network structure which resulting in the difficulty in playing its network performance better. To this end, applying Harris Hawk algorithm to adaptive optimization of CNN structure to build an intrusion detection model was proposed. Firstly, aiming at the overfitting in the fully-connected layer of traditional CNN, having the global pooling GAP layer used to reduce parameters; then having the Harris Hawk algorithm adopted to select CNNs optimal structure to avoid uncertainty of detection incurred by the manual intervention so as to shorten parameters selection time and improve applicability and intrusion detection performance of the intrusion detection model. The experimental results on the NSL-KDD dataset show that, the intrusion detection model established with Harris Hawk algorithm-improved CNN has a detection accuracy of 93.68% and a misinforming rate of 1.65% and its detection performance outperforms that of SVM, AdaBoost and BP intrusion detection models.
Key words? ? intrusion detection, HHO-GCNN model, CNN, Harris Hawk algorithm, self-adaptive optimization, global pooling layer, NSL-KDD dataset