摘要:在電子信息技術(shù)快速發(fā)展的過程中,網(wǎng)絡入侵模式、攻擊方式也在不斷升級和變化,網(wǎng)絡安全問題日益嚴峻,網(wǎng)絡流量入侵檢測面臨更大挑戰(zhàn)。為了提高入侵檢測的速率、準確率,文章提出一種基于深度學習的網(wǎng)絡流量入侵檢測新方法,該方法通過提取流量數(shù)據(jù)的關(guān)鍵特征,優(yōu)化粒子群算法。同時引入慣性權(quán)重模塊,并結(jié)合極限學習機、AE自編碼器,有效消除數(shù)據(jù)噪音的問題,實現(xiàn)對網(wǎng)絡流量入侵的有效檢測。實驗結(jié)果表明,該方法能夠精確、高效地對網(wǎng)絡流量入侵進行檢測,可以提高網(wǎng)絡安全防護效果。
關(guān)鍵詞:深度學習;網(wǎng)絡流量;入侵檢測;檢測方法
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2024)23-0096-04
開放科學(資源服務)標識碼(OSID)
伴隨著網(wǎng)絡信息技術(shù)的迅猛發(fā)展,網(wǎng)絡流量入侵載體更加多樣化,網(wǎng)絡安全受到嚴重威脅,亟須加強網(wǎng)絡安全風險管理,提高入侵攻擊側(cè)識別速率,保障資產(chǎn)防護效果。對此,眾多學者圍繞網(wǎng)絡流量入侵檢測方法開展了大量的研究,取得了一定的研究成果。宗學軍和劉歡歡等[1]針對當下入侵檢測系統(tǒng)存在的不足,將數(shù)據(jù)平面開發(fā)套件技術(shù)同Suricate IDS進行整合,利用高效規(guī)則匹配算法NEW-WM,構(gòu)建高速網(wǎng)絡流量下入侵檢測系統(tǒng),有效解決了以往入侵檢測系統(tǒng)無法準確、實時檢測高速工業(yè)網(wǎng)絡流量的問題,大大提升了系統(tǒng)數(shù)據(jù)包捕獲處理能力和入侵檢測效率;陳雪倩和步兵[2]提出一種基于網(wǎng)絡流量和數(shù)據(jù)包的入侵檢測系統(tǒng),基于CBTC系統(tǒng)構(gòu)建IDS模型,整合AR算法的網(wǎng)絡流量檢測模塊和數(shù)據(jù)包檢測模塊,實現(xiàn)了對網(wǎng)絡流量、數(shù)據(jù)包的特征提取和檢測,有效保障了CBTC系統(tǒng)的安全風險,避免了數(shù)據(jù)篡改、杜絕服務等問題的發(fā)生;邊金良[3]提出基于數(shù)據(jù)挖掘的網(wǎng)絡流量異常入侵檢測法,借助數(shù)據(jù)挖掘的關(guān)聯(lián)分析功能,明確異常流量特征聯(lián)系,對異常流量特征開展聯(lián)合計算熵值處理,具有良好的異常網(wǎng)絡流量入侵檢測功能。上述方法雖然對于網(wǎng)絡流量擁有良好的數(shù)據(jù)采集和處理能力,提升了網(wǎng)絡流量入侵檢測效率,縮短了檢測時間,使入侵檢測系統(tǒng)消耗大大降低,但在檢測精確度、實時性檢測和告警方面仍存在一定的不足,對入侵行為類型的檢測有一定的局限性,適用范圍有限,無法實現(xiàn)大規(guī)模廣泛應用,對未知或新型攻擊的檢測方面仍有待提升,還需進一步提升實際應用性能。為了解決上述問題,本研究提出基于深度學習的網(wǎng)絡流量入侵檢測方法,聯(lián)合深度學習、極限學習機的優(yōu)勢,并通過實驗驗證該方法的入侵檢測性能。
1 基于深度學習的網(wǎng)絡流量入侵檢測方法設計
1.1 關(guān)鍵詞維度統(tǒng)計特征
協(xié)議、流量包是網(wǎng)絡流量入侵檢測工作的關(guān)鍵識別信息。在對協(xié)議這一流量行為信息進行識別時,涉及TCP、IP、SLIP、PPP等幾大網(wǎng)絡協(xié)議,應通過One-Hot中單個類型單對應的形式,實現(xiàn)協(xié)議同相應數(shù)值的映射處理;而在流量數(shù)據(jù)包的識別方面,對于特定平臺,提前要在該平臺服務器中部署腳本監(jiān)聽端口,抓取用戶訪問平臺下的用戶訪問請求、響應等流量信息[4]。本研究以字符串的形式存儲訪問者請求數(shù)據(jù)。網(wǎng)絡攻擊人員采用GetShell、XSS注入等方式開展?jié)B透操作時,會將固定框架語句寫入目標碼、URL內(nèi)。本文提出的基于深度學習的網(wǎng)絡流量入侵檢測方法的原理為針對不同特征維度選取對應的關(guān)鍵詞,并對關(guān)鍵詞出現(xiàn)頻率進行記錄,從而抓取框架中數(shù)據(jù)特征。通過特征轉(zhuǎn)化,能夠?qū)⒆址D(zhuǎn)變?yōu)榫仃囆问?,便于機器理解和操作,為構(gòu)建網(wǎng)絡流量入侵檢測模型提供了保障。深度學習下網(wǎng)絡流量入侵檢測方法的關(guān)鍵詞特征詳見如表1所示。
1.2 數(shù)據(jù)初處理
在提取字符串特征結(jié)構(gòu)時,可以應用關(guān)鍵詞維度統(tǒng)計(KDS) 處理法。KDS法對One-Hot離散文本語義特征提取法、詞袋文本特征提取法進行了融合,將兩種提取法的核心技術(shù)充分發(fā)揮出來,可以對專項特征進行針對性的提取,創(chuàng)新了入侵檢測方向的特征提取思路和方式。KDS法可以在無序長字符數(shù)據(jù)中對關(guān)鍵特征進行提取,形成滿足學習模型的數(shù)據(jù)信息,具有降低冗余數(shù)據(jù)、改善算法模型運行效率的優(yōu)勢。本入侵檢測模型可以利用KDS處理法,實現(xiàn)無規(guī)則字符串數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)變,有效統(tǒng)計各維度的詞量,充分體現(xiàn)不同流量包的結(jié)構(gòu)差別,以便帶入算法模型中進行運算,促進網(wǎng)絡流量入侵檢測模型的構(gòu)建和學習。在KDS處理法的保障下,可以有效整合模型各項功能,例如:統(tǒng)計分析、匹配及關(guān)鍵詞對比等,進一步優(yōu)化數(shù)據(jù)處理方式,以監(jiān)督學習的形式提取數(shù)據(jù)特征,獲得較優(yōu)的數(shù)據(jù)特征匹配結(jié)果,有效消除冗余數(shù)據(jù),保障算法模型的運行速率[5]。具體流程如下:
1) 在特征層中將各關(guān)鍵詞看作獨立特征,通過向量格式編排特征層數(shù)據(jù),表達式為:[features=selectunionnull......root]。
2) 將上述表達式進行映射處理,設定特征層第n個關(guān)鍵詞為[Xn],得到映射層表達式:[X=X1X2X3......Xn]。若第n個特征出現(xiàn)的標記為[Cn],出現(xiàn)頻率計數(shù)為[Cn],借助公式對各條網(wǎng)絡流量中關(guān)鍵詞的出現(xiàn)頻率進行統(tǒng)計,得到[Cn=i=1(cni)],最終特征向量表達式為:[Hn=C1C2C3......Cn]。
3) 完成數(shù)據(jù)實例轉(zhuǎn)化對比,建立包括未經(jīng)處理數(shù)據(jù)、KDS法處理后數(shù)據(jù)的轉(zhuǎn)化表,調(diào)整數(shù)據(jù)格式如表2所示。
1.3 數(shù)據(jù)壓縮與數(shù)據(jù)降維處理
本研究方法結(jié)合自編碼器的穩(wěn)定特征學習性能,對網(wǎng)絡流量數(shù)據(jù)主成分進行提取,完成數(shù)據(jù)的壓縮、降維處理,有效避免了噪聲數(shù)據(jù)和冗余數(shù)據(jù)的影響,增強了算法的監(jiān)測效率。自編碼器神經(jīng)網(wǎng)絡模型建立在無監(jiān)督算法的基礎上,由輸入、隱藏和輸出三層結(jié)構(gòu)組成,其中輸入和輸出層的節(jié)點數(shù)相同。若輸入向量為[x=x1, x2 x3 ... xn],隱藏層編碼處理公式為:[h=σ(Wx+b)]。
數(shù)據(jù)壓縮處理結(jié)果為[h=h1, h2, h3 ... hn],W為輸入層、隱藏層間的權(quán)重值,[σ(?)]為激活函數(shù),b為偏置值。
通過輸出層進行數(shù)據(jù)解碼,得到公式:[x=σ(W'h+b')]。其中,偏重、偏置量分別是W'、b',輸出結(jié)果是[x]。針對隱藏層輸出結(jié)果進行還原處理,還原為原始輸入數(shù)據(jù),并開展降維操作,由此增強入侵檢測模型性能。采用逐層貪婪訓練法,自編碼神經(jīng)網(wǎng)絡可以對數(shù)據(jù)開展預訓練,應用BP神經(jīng)網(wǎng)絡調(diào)整網(wǎng)絡模型。而鑒于本研究方法將極限學習機、單隱藏層自編碼器進行了整合,所以需要預訓練自編碼器,確定輸入層到隱藏層間的初始權(quán)重,通過隨機梯度下降算法和BP神經(jīng)網(wǎng)絡,得出隱藏層的最優(yōu)輸出權(quán)值和損失函數(shù)的最小值。
2 實驗過程
2.1 基于深度學習的網(wǎng)絡流量入侵檢測系統(tǒng)模型
在構(gòu)建網(wǎng)絡流量入侵檢測系統(tǒng)模型時,將AE自編碼器、極限學習機整合起來,針對AE-ELM神經(jīng)網(wǎng)絡中超學習參數(shù)對算法模型產(chǎn)生的影響及存在的缺陷,引入改進后的粒子群優(yōu)化算法(POS) ,借助優(yōu)化PSO搜索最優(yōu)化模型學習參數(shù),建立PSO-AE-ELM模型,實現(xiàn)多維數(shù)據(jù)處理以及對樣本數(shù)據(jù)深層特征的有效提取,維去噪,縮短訓練時間[6]。針對深度神經(jīng)網(wǎng)絡的PSO-AE-ELM預測模型,可以進行入侵檢測識別的預測,借助粒子群優(yōu)化算法探尋最優(yōu)自編碼ELM的隱藏層神經(jīng)節(jié)點數(shù)量,明確偏差值、權(quán)重以及激活函數(shù),結(jié)合最優(yōu)結(jié)果、訓練樣本,并在模型中導入預測結(jié)果,開展實驗驗證。實驗驗證流程具體如下:
1) 針對自編碼器搜集的網(wǎng)絡流量數(shù)據(jù),開展數(shù)據(jù)降維處理操作,優(yōu)化網(wǎng)絡流量入侵檢測模型運行效率。
2) 將整合極限學習機和自編碼器(AE-ELM) 的神經(jīng)網(wǎng)絡作為預測模型,在重構(gòu)模型內(nèi)輸入數(shù)據(jù)集合,通過隨機梯度下降法(SGD) 對自編碼器進行訓練,提取AE神經(jīng)網(wǎng)絡特征。依托PSO算法找到最優(yōu)AE-ELM超學習參數(shù),結(jié)合優(yōu)化結(jié)果明確隱藏層神經(jīng)節(jié)點的數(shù)目,獲取各項參數(shù)數(shù)值。其中,AE-ELM神經(jīng)網(wǎng)絡下的超學習參數(shù)直接影響著算法模型的性能,具體指的是進行模型訓練時在深度學習中設定的參數(shù),包括:隱藏層數(shù)目、梯度下降法循環(huán)數(shù)、學習率及隱藏層單元數(shù)等。
3) 將實際網(wǎng)絡入侵數(shù)據(jù)導入通過最優(yōu)參數(shù)構(gòu)建的POS-AE-ELM模型中,結(jié)合準確率判定優(yōu)化后的模型檢測精準度。
2.2 入侵檢測模型優(yōu)化實現(xiàn)過程
POS-AE-ELM模型的優(yōu)化實現(xiàn)過程詳見圖1所示。
結(jié)合圖1,POS-AE-ELM模型優(yōu)化過程具體介紹如下:
1) 針對互聯(lián)網(wǎng)端的行為流量,利用蜜罐系統(tǒng)進行搜集和存儲,劃分和標注行為流量的供給類型,形成原始數(shù)據(jù)集,并進行進一步處理獲得顯性結(jié)構(gòu)數(shù)據(jù),有序進行數(shù)據(jù)的過濾、類型轉(zhuǎn)變及歸一化操作,使實驗樣本達到學習模型的標準要求。
2) 按照比例劃分實驗樣本數(shù)據(jù),分別形成測試集和訓練集。結(jié)合訓練集建立AE-ELM網(wǎng)絡流量入侵檢測模型,而利用測試集則能夠檢驗模型精確程度,分析模型檢測準確率函數(shù)的有效性。準確率函數(shù)指的是開展機器學習算法檢測測試數(shù)據(jù)時,應用Classification-report函數(shù)進行測試的準確率運算輸出。
3) 利用基準粒子群優(yōu)化算法對AE-ELM模型的學習參數(shù)進行優(yōu)化,并參考準確率函數(shù)形成適應度函數(shù),明確適應度值。在得到POS-AE-ELM模型相關(guān)參數(shù)的基礎上,確定最優(yōu)學習參數(shù)和優(yōu)化模型,獲得最優(yōu)超學習參數(shù)組合,即最優(yōu)超學習參數(shù)。
2.3 模型框架結(jié)構(gòu)
基于粒子群優(yōu)化算法下,種群粒子趨近于最佳粒子位置時,粒子速度接近0,會影響種群多樣性,致使種群粒子無法擺脫局部最優(yōu),不利于精細局部搜索工作的開展。本文算法以標準PSO為基礎,借鑒遺傳算法的變異操作,引入動態(tài)慣性權(quán)重,形成改進的粒子群優(yōu)化算法。該算法可有效識別檢測目標類別,避免種群粒子過早收斂[7]。結(jié)合多超學習參數(shù)分析結(jié)果,也能夠通過下述方式進一步提升模型入侵檢測性能。一方面,可以將全局搜索視作外部優(yōu)化層,對改進后粒子優(yōu)化算法模型的最優(yōu)特征粒子進行選擇,借助AE-ELM模型的適應度函數(shù)對特征粒子進行評估;另一方面也能將局部搜索視作內(nèi)部優(yōu)化層,參考遺傳算法的變異操作,在粒子群優(yōu)化算法中融入動態(tài)權(quán)重值的概念,在增加迭代次數(shù)的過程中實現(xiàn)對PSO局部化優(yōu)化,以此來合理選擇局部特征,有效克服標準PSO算法容易陷入局部最優(yōu)的問題,實現(xiàn)全局優(yōu)化。其中,局部搜索、全局搜索是考察算法性能的兩大指標,前者指的是無窮接近最優(yōu)解的能力,依賴于對解空間進行按鄰域搜索;后者指的是探尋全局最優(yōu)解位置的能力,可以從最優(yōu)解中選擇最好結(jié)果作為最終結(jié)果。POS-AE-ELM模型框架結(jié)構(gòu)詳見如圖2所示:
檢測網(wǎng)絡入侵流量前,首先要初始化改進PSO算法的相關(guān)參數(shù),在給定范圍內(nèi)隨機生成20個初始粒子形成種群。然后迭代優(yōu)化多次,用適應度函數(shù)評價各粒子,更新粒子位置和速度,直到滿足迭代停止條件。最后將全局最優(yōu)粒子位置對應的參數(shù)組合代入POS-AE-ELM模型,完成模型訓練。
3 實驗結(jié)果分析
3.1 實驗環(huán)境及數(shù)據(jù)
搭建POS-AE-ELM模型測試實驗環(huán)境如表3所示:
實驗中,PSO-AE-ELM模型的參數(shù)設置如下:種群粒子數(shù)20,最大迭代次數(shù)200,適應度函數(shù)為分類準確率。
結(jié)合實際項目所采集的網(wǎng)絡流量數(shù)據(jù),將蜜罐系統(tǒng)部署在服務器或私有云等多節(jié)點中,發(fā)揮監(jiān)控系統(tǒng)的捕捉模塊功能來搜集網(wǎng)絡流量數(shù)據(jù),這些數(shù)據(jù)均具有單個標志屬性和三個特征屬性,屬于正常行為流量[8]。針對流量數(shù)據(jù)開展拆分解析,設定相應標簽,確定網(wǎng)絡流量入侵檢測原始樣本數(shù)據(jù)。鑒于網(wǎng)絡流量數(shù)據(jù)無規(guī)律且波動變化較大,可以應用min-max歸一化法對特征參數(shù)進行壓縮,使參數(shù)處在[0,1]的范圍。網(wǎng)絡流量數(shù)據(jù)的初始值為x,xmax為數(shù)據(jù)組內(nèi)最大值, xmin為數(shù)據(jù)組內(nèi)最小值,歸一化處理公式表示為:[x'=x-xminxmax-xmin]。
3.2 實驗結(jié)果
迭代次數(shù)與最優(yōu)粒子的適應度成正比關(guān)系,PSO-AE-ELM模型準確率與迭代次數(shù)關(guān)系詳見如圖3所示:
結(jié)合上圖可以看出,隨著迭代次數(shù)的不斷增加,PSO-AE-ELM模型的準確率逐漸趨于穩(wěn)定,最優(yōu)結(jié)果約為94%,可以對數(shù)據(jù)進行優(yōu)化,并大大提升了入侵見檢測識別準確率,表示該算法模型在網(wǎng)絡流量入侵檢測領(lǐng)域具有實用性。為了進一步對比分析該算法模型同其他模型的性能,在開展識別檢測網(wǎng)絡流量入侵行為驗證時,應選定準確度、誤報率、漏報率及檢測時間四大評價指標,對照分析基于BP神經(jīng)網(wǎng)絡檢測法、基準ELM模型檢測法、本研究檢測法的網(wǎng)絡流量入侵檢測效果,具體結(jié)果詳見如表4所示。
結(jié)合上表可知,本研究所提出的基于深度學習算法的PSO-AE-ELM模型具有良好的性能,通過添加遺傳算法的突變策略,使PSO全局優(yōu)化性能明顯改善,在準確率、漏報率和檢測時間方面明顯較優(yōu),且漏報率也低于ELM檢測法。此外,后期僅針對PSO-ELM和優(yōu)化PSO-AE-ELM算法模型開展對照分析,利用數(shù)據(jù)集進行100次迭代訓練,進一步檢驗優(yōu)化PSO-AE-ELM算法模型的有效性,具體結(jié)果詳見如圖4所示。
通過對比PSO-ELM和優(yōu)化PSO-AE-ELM的收斂曲線可以發(fā)現(xiàn),優(yōu)化后的算法模型在準確率、誤報率、漏報率等指標上均有提升。本研究所提出的優(yōu)化PSO-AE-ELM算法均得到了提升,其中準確率提升了8.33%,誤報率、漏報率分別降低了7.6%、0.73%,且運行時間也縮短了0.7s,再次驗證了優(yōu)化算法具有良好的性能,抗噪聲能力、降維能力和識別能力較強,且運行效率、收斂速度和全局尋優(yōu)能力極具優(yōu)勢,提高網(wǎng)絡流量入侵檢測識別的準確性和實時性,在實踐應用中有著很好的可行性。
4 結(jié)束語
本文算法繼承了ELM和AE的優(yōu)點,通過PSO進行優(yōu)化,大大提高了檢測精度和訓練效率。同時引入了新的特征提取方法KDS,可以將字符串特征映射到模型中,一定程度上解決了數(shù)據(jù)的高維稀疏問題。未來還需要從優(yōu)化權(quán)重初始化、擴充KDS詞庫、豐富評價指標等方面繼續(xù)探索,進一步挖掘深度學習在入侵檢測領(lǐng)域的潛力,更好地守衛(wèi)網(wǎng)絡安全。
參考文獻:
[1] 宗學軍,劉歡歡,何戡,等.高速網(wǎng)絡流量下實時入侵檢測系統(tǒng)研究與應用[J].網(wǎng)絡安全與數(shù)據(jù)治理,2023(4):56-61,84.
[2] 陳雪倩,步兵.基于網(wǎng)絡流量和數(shù)據(jù)包的CBTC入侵檢測系統(tǒng)[J].中國安全科學學報, 2019,29 (S2): 154-160.
[3] 邊金良.基于數(shù)據(jù)挖掘的網(wǎng)絡異常流量入侵檢測方法[J].信息與電腦,2022(21):1-3.
[4] 王婷,王娜,崔運鵬,等.基于半監(jiān)督學習的無線網(wǎng)絡攻擊行為檢測優(yōu)化方法[J].計算機研究與發(fā)展,2020,57(4):791-802.
[5] 張永東.基于深度強化學習的網(wǎng)絡流量分析與入侵檢測[J].信息記錄材料,2024,25(3):173-175.
[6] 王馨彤.基于深度學習的輕量化網(wǎng)絡流量異常檢測方法研究與實現(xiàn)[D].南京:南京郵電大學, 2023.
[7] 朱平哲.基于深度學習的實時網(wǎng)絡入侵檢測方法[J].安陽工學院學報,2019,18(4):48-51.
[8] 何俊鵬,羅蕾,肖堃,等.基于特征值分布和人工智能的網(wǎng)絡入侵檢測系統(tǒng)的研究與實現(xiàn)[J].計算機應用研究,2021,38(9):2746-2751.
【通聯(lián)編輯:光文玲】