關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);長短期記憶網(wǎng)絡(luò);惡意流量
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)28-0069-03
0 引言
近年來,隨著計(jì)算機(jī)技術(shù)和人工智能領(lǐng)域的迅猛發(fā)展,數(shù)字校園、智慧校園等概念日益深入人心[1]。高校紛紛順應(yīng)時(shí)代潮流,依托校園網(wǎng)絡(luò),構(gòu)建起包括學(xué)校網(wǎng)站群、教務(wù)系統(tǒng)、后勤系統(tǒng)、人事系統(tǒng)、一卡通系統(tǒng)等在內(nèi)的智能應(yīng)用體系。這無疑極大地滿足了師生的工作學(xué)習(xí)需求,但同時(shí)也使得姓名、身份證、手機(jī)號(hào)等敏感信息暴露于網(wǎng)絡(luò)之上。不容忽視的是,受部分黑客群體利益驅(qū)使及國際形勢影響,網(wǎng)絡(luò)攻擊手段層出不窮,如勒索病毒、挖礦攻擊等,輕則導(dǎo)致系統(tǒng)癱瘓,重則引發(fā)機(jī)密信息泄露。若高校在網(wǎng)絡(luò)安全防護(hù)上存在疏漏,便會(huì)給不法分子以可乘之機(jī)。此外,黑客技術(shù)和網(wǎng)絡(luò)攻擊手段持續(xù)升級(jí),如SQL注入、DDoS 攻擊、端口掃描、漏洞利用等,防不勝防。因此,若能運(yùn)用技術(shù)手段對(duì)高校網(wǎng)絡(luò)流量進(jìn)行深度分析,提前識(shí)別并攔截惡意流量,將有助于網(wǎng)安人員追溯攻擊源頭,及時(shí)阻斷攻擊,從而有效保護(hù)高校內(nèi)部的網(wǎng)絡(luò)安全與信息安全,確保校園網(wǎng)絡(luò)的平穩(wěn)運(yùn)行。
本文采用當(dāng)前較為成熟的深度學(xué)習(xí)技術(shù)——卷積神經(jīng)網(wǎng)絡(luò)(CNN) 與長短期記憶網(wǎng)絡(luò)(LSTM) ,對(duì)網(wǎng)絡(luò)流量進(jìn)行建模分析,訓(xùn)練出能夠精準(zhǔn)識(shí)別網(wǎng)絡(luò)惡意流量的模型。該模型將助力網(wǎng)安人員更好地識(shí)別惡意流量,為高校信息資產(chǎn)的安全保駕護(hù)航。
1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
早在20世紀(jì)80年代,科學(xué)家們便提出了人工神經(jīng)網(wǎng)絡(luò)的概念,他們利用大量模擬的神經(jīng)元構(gòu)建模型,以模仿大腦的思考方式。然而,由于當(dāng)時(shí)計(jì)算能力的不足和缺乏具體的應(yīng)用場景,人工神經(jīng)網(wǎng)絡(luò)并未得到廣泛應(yīng)用。隨著近年來半導(dǎo)體技術(shù)的持續(xù)進(jìn)步和神經(jīng)網(wǎng)絡(luò)理論模型的不斷迭代更新,神經(jīng)網(wǎng)絡(luò)已成為深度學(xué)習(xí)領(lǐng)域的關(guān)鍵組成部分,并被廣泛應(yīng)用于圖形圖像處理、文本識(shí)別、金融分析、醫(yī)藥研究等多個(gè)與大眾生活息息相關(guān)的領(lǐng)域。同時(shí),隨著網(wǎng)絡(luò)化時(shí)代的到來,各類豐富的數(shù)據(jù)得以便捷地流通,這為科學(xué)家們使用海量數(shù)據(jù)訓(xùn)練出高效實(shí)用的模型提供了便利。
人工神經(jīng)網(wǎng)絡(luò)根據(jù)其內(nèi)部神經(jīng)元之間的連接關(guān)系,可以分為前向網(wǎng)絡(luò)和反饋網(wǎng)絡(luò)兩大類。由于前向網(wǎng)絡(luò)中神經(jīng)元之間的信息傳遞是單向的,且結(jié)構(gòu)相對(duì)簡單,因此它特別適合于處理大規(guī)模、多維度的數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡(luò)(CNN) 便是前向網(wǎng)絡(luò)中的一個(gè)經(jīng)典代表。CNN 的結(jié)構(gòu)與典型的前向網(wǎng)絡(luò)相似,由輸入層、隱藏層(包括卷積層、池化層和全連接層)以及輸出層構(gòu)成[2]。
在CNN中,輸入層負(fù)責(zé)接收原始數(shù)據(jù)。這些數(shù)據(jù)可以是圖像、文本、音頻等多種形式,根據(jù)數(shù)據(jù)類型的不同,它們會(huì)被轉(zhuǎn)換為相應(yīng)的矩陣形式進(jìn)行輸入。
進(jìn)入隱藏層后,隱藏層中的卷積層會(huì)對(duì)輸入數(shù)據(jù)進(jìn)行特征提取。通過使用卷積核與原始矩陣進(jìn)行卷積操作,如公式(1) 所示,得到一個(gè)比輸入數(shù)據(jù)更小的矩陣,這個(gè)矩陣即被視為降維后的數(shù)據(jù),同時(shí)也是從原始數(shù)據(jù)中提取出的關(guān)鍵特征。如圖1所示,即以二維矩陣為例進(jìn)行卷積操作的過程。
卷積層輸出的特征矩陣中包含的特征數(shù)量往往過多,且通??赡馨殡S過擬合的問題,因此會(huì)將特征矩陣輸入到池化層中進(jìn)行進(jìn)一步的處理[3]。常見的池化技術(shù)包括最大池化和平均池化,如圖2和圖3所示,通過選擇適當(dāng)?shù)某鼗翱诖笮。罁?jù)其對(duì)應(yīng)的算法降低特征矩陣的維度,最終將處理結(jié)果輸出至全連接層。
特征矩陣中存儲(chǔ)的均為局部特征,全連接層的作用是將這些特征矩陣轉(zhuǎn)換為一維向量,經(jīng)過計(jì)算后,根據(jù)激活函數(shù)即可得到最終的輸出結(jié)果。
2 長短期記憶網(wǎng)絡(luò)(LSTM)
由于卷積神經(jīng)網(wǎng)絡(luò)作為一種前向網(wǎng)絡(luò),缺乏反饋機(jī)制,神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)可能會(huì)過度依賴鄰近的訓(xùn)練數(shù)據(jù)。而神經(jīng)網(wǎng)絡(luò)通常需要大量數(shù)據(jù)進(jìn)行訓(xùn)練才能達(dá)到較優(yōu)效果,因此,為了避免卷積神經(jīng)網(wǎng)絡(luò)因時(shí)序問題導(dǎo)致的模型局限性,需要引入長短期記憶網(wǎng)絡(luò)(LSTM) 。與卷積神經(jīng)網(wǎng)絡(luò)不同,LSTM是一種反饋網(wǎng)絡(luò),通過前向傳播和反向傳播等手段,使模型在訓(xùn)練時(shí)具備記憶性,并持續(xù)動(dòng)態(tài)地迭代參數(shù)[4]。普通的反饋網(wǎng)絡(luò)如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) 存在長期依賴問題,而LSTM是對(duì)RNN的改進(jìn),其核心結(jié)構(gòu)包括記憶細(xì)胞、輸入門、遺忘門和輸出門,這些結(jié)構(gòu)能夠按照時(shí)間順序?qū)斎霐?shù)據(jù)進(jìn)行篩選,從而具備處理時(shí)序數(shù)據(jù)的能力。
記憶細(xì)胞是貫穿LSTM網(wǎng)絡(luò)的關(guān)鍵結(jié)構(gòu),通過記憶細(xì)胞,LSTM能夠?qū)崿F(xiàn)對(duì)信息的長期記憶。然而,網(wǎng)絡(luò)中的信息并非固定不變,在訓(xùn)練過程中,通過輸入門、遺忘門和輸出門這三個(gè)結(jié)構(gòu)來控制信息的流動(dòng)與更新[5]。長短期記憶網(wǎng)絡(luò)的結(jié)構(gòu)如圖4所示。
3 實(shí)驗(yàn)及分析
3.1 實(shí)驗(yàn)數(shù)據(jù)及環(huán)境
本文使用的數(shù)據(jù)集為CIC-IDS2017,是加拿大安全研究所提供的開源數(shù)據(jù)集[6]。鑒于以往數(shù)據(jù)集在覆蓋面及惡意流量攻擊類型豐富度上的不足,研究人員基于HTTP、HTTPS、FTP等協(xié)議,模擬了為期5天、涉及25個(gè)用戶的行為數(shù)據(jù),包含了正常的數(shù)據(jù)流以及多樣化的攻擊方式,如DDoS、僵尸網(wǎng)絡(luò)、滲透和Web攻擊等。該數(shù)據(jù)集包含時(shí)間戳、源地址IP、目標(biāo)地址IP、源端口、目標(biāo)端口、協(xié)議等共計(jì)75種特征。提供的數(shù)據(jù)集形式多樣,既有pcap格式的數(shù)據(jù)包文件,也有經(jīng)過預(yù)處理的csv格式文件。本文用于研究的數(shù)據(jù)集為其中的Thursday-WebAttacks、Thursday-Infilteration、Fridayn-PortScan、Friday-DDos,其數(shù)據(jù)分布如表1 所示。
本次實(shí)驗(yàn)的硬件環(huán)境配置為Windows 10 64位系統(tǒng),搭載Intel i5-7400 CPU 及NVIDIA GTX1660SUPER GPU,內(nèi)存容量為16GB。軟件環(huán)境方面,采用Python 3.6版本,開發(fā)框架選用Pytorch,集成開發(fā)環(huán)境為PyCharm。
3.2 實(shí)驗(yàn)流程
實(shí)驗(yàn)流程如圖5所示。首先,讀取數(shù)據(jù)集后,對(duì)整體數(shù)據(jù)進(jìn)行檢查,發(fā)現(xiàn)“每秒傳輸?shù)淖止?jié)數(shù)”和“每秒傳輸?shù)臄?shù)據(jù)包數(shù)”兩列中存在nan、infinity 等異常值(臟數(shù)據(jù)),需將這些包含臟數(shù)據(jù)的數(shù)據(jù)行予以剔除。鑒于數(shù)據(jù)樣本中部分攻擊行為的樣本數(shù)量較少,為防止模型訓(xùn)練時(shí)出現(xiàn)過擬合現(xiàn)象,對(duì)含有惡意流量的數(shù)據(jù)進(jìn)行重采樣處理。隨后,按照70%和30%的比例劃分訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。接著,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN) 進(jìn)行特征提取,再通過長短期記憶網(wǎng)絡(luò)(LSTM) 構(gòu)建模型,最后驗(yàn)證測試集輸出結(jié)果。
3.3 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果如表2 所示,本文提出的基于CNN 和LSTM 的分類模型對(duì)數(shù)據(jù)集中的Thursday-WebAttacks、Thursday-Infiltration、Friday-PortScan、Friday-DDoS均有不錯(cuò)的預(yù)測效果,其中準(zhǔn)確率依次達(dá)到96.03%、93.25%、94.48%和97.19%,精確率依次為98.58%、94%、97.62% 和98.25%,召回率依次為97.28%、93.19%、96.33% 和98.08%,F(xiàn)1值依次為97.93%、93.59%、96.97% 和98.16%。僅在Thursday-Infiltration這個(gè)樣本上,由于惡意流量類型為滲透的數(shù)據(jù)較少,可能會(huì)在訓(xùn)練模型時(shí)導(dǎo)致過擬合而表現(xiàn)略有不佳,但在其余樣本上均能達(dá)到96%以上的準(zhǔn)確識(shí)別率。通過以上結(jié)果可以得出結(jié)論,本文提出的基于CNN和LSTM的模型能夠有效地對(duì)網(wǎng)絡(luò)中的惡意流量進(jìn)行分析和識(shí)別,從而幫助相關(guān)網(wǎng)絡(luò)安全人員更好地提前識(shí)別和預(yù)判風(fēng)險(xiǎn),以保障校園網(wǎng)絡(luò)的安全和信息資產(chǎn)的安全。
4 結(jié)束語
本文首先介紹了當(dāng)前嚴(yán)峻的網(wǎng)絡(luò)安全形勢以及防范和識(shí)別網(wǎng)絡(luò)惡意流量的必要性,隨后簡要介紹了卷積神經(jīng)網(wǎng)絡(luò)(CNN) 和長短期記憶網(wǎng)絡(luò)(LSTM) 的背景和原理。接著,提出了一種基于CNN和LSTM的模型,該模型首先利用CNN對(duì)數(shù)據(jù)集進(jìn)行特征提取,隨后通過LSTM進(jìn)行建模,以此實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)惡意流量的分析和識(shí)別。
在后續(xù)工作中,鑒于本文在訓(xùn)練模型時(shí)遇到的部分攻擊樣本較少的問題,以及不斷出現(xiàn)的新型惡意流量攻擊形式,建議未來研究可以收集更多、更全面的數(shù)據(jù)集進(jìn)行訓(xùn)練。同時(shí),面對(duì)海量數(shù)據(jù)時(shí),如何解決機(jī)器性能與訓(xùn)練效率之間的矛盾也將成為研究的重點(diǎn)。