盧明星
摘要
對于入侵檢測技術來說,由于攻擊類型的不同使得檢測性能存在一定的不平衡。而將遷移學習加入現(xiàn)有的算法中,能夠提升入侵檢測的效果。基于此,本文分析了現(xiàn)有的入侵檢測方法,說明了基于遷移學習的入侵檢測系統(tǒng)模型,探究了基于DNB的入侵檢測以及基于DTNL的入侵檢測結(jié)果的效果。
【關鍵詞】遷移學習 入侵檢測技術 分布式遷移網(wǎng)絡學習算法
計算機技術的不斷發(fā)展使得網(wǎng)絡安全防護更加受人關注,相關人員對于網(wǎng)絡安全防護技術的研究更加深入。在網(wǎng)絡安全防護技術中,入侵檢測技術是一種十分有效的技術,能夠?qū)崿F(xiàn)在系統(tǒng)遭受入侵前對外部入侵進行檢測與攔截,在系統(tǒng)受到內(nèi)部攻擊時也能對系統(tǒng)進行保護。就現(xiàn)階段的研究來說,由于遷移學習能夠在多任務的學習中有著較好的效果,所以將其加入現(xiàn)有的算法,能有提升檢測效果。
1現(xiàn)有的入侵檢測方法分析
1.1模式匹配
基于模式匹配的入侵檢測主要流程如下:在網(wǎng)絡中將計算機的行為模式進行分類,將在數(shù)據(jù)庫中選擇的一些攻擊行為建立攻擊行為特征庫。當計算機的網(wǎng)絡受到可疑的操作時,基于模式匹配的入侵檢測系統(tǒng)能夠利用攻擊行為特征庫對這些可疑操作進行比對。在實際的比對中,可以使用字符串的形式進行。具體來說,就是在基于模式匹配的入侵檢測系統(tǒng)中利用一串特定的字符串代表某一惡意操作行為,并利用這一字符串進行匹配,就能夠?qū)崿F(xiàn)對入侵行為的檢測與尋找。
1.2概率統(tǒng)計分析
在進行入侵檢測匯總,概率統(tǒng)計分析是一種較為常用的方法。概率統(tǒng)計分析的核心在于,利用統(tǒng)計學的思想建立起一個區(qū)間的閩值,具體來說,就是結(jié)合計算機正常運行時的數(shù)據(jù),建立起被攻擊次數(shù)或者是誤報的最大值。在該系統(tǒng)實際的運行中,若是統(tǒng)計結(jié)果顯示計算機遭受入侵的次數(shù)超過這一閾值,那么就可以判定該計算機系統(tǒng)受到了攻擊,計算機的運行出現(xiàn)了異常。在進行基于概率統(tǒng)計分析的入侵檢測系統(tǒng)建立時,由于要進行對閾值以及相應統(tǒng)計量的選擇與確定,所以有著一定的局限性。
1.3專家系統(tǒng)
在基于專家系統(tǒng)的入侵檢測系統(tǒng)中,通過專家經(jīng)驗建立起的計算機入侵行為庫,對于遭受的可疑操作進行對比,就能夠完成對計算機入侵行為的判斷?;趯<蚁到y(tǒng)的入侵檢測系統(tǒng)在運行時,使用一個簡單的判別語句就能夠完成對入侵行為的判斷。具體來說,就是當可疑操作與專家系統(tǒng)中的入侵行為相匹配時,就可以判定計算機遭受了入侵行為;若是可疑操作與專家系統(tǒng)中的如入侵行為不匹配時,就可以判定計算機運行安全。就目前的互聯(lián)網(wǎng)技術的更新速度來說,想要使用基于專家系統(tǒng)的入侵檢測系統(tǒng)能更好的對入侵行為進行判定,就必須要讓專家系統(tǒng)具有自我學習的能力,但是現(xiàn)階段該項技術并不成熟。
2基于遷移學習的入侵檢測系統(tǒng)模型
2.1入侵檢測的一般過程
在入侵檢測過程中,主要的流程如下:一個信息源經(jīng)過數(shù)據(jù)的預處理模塊后,在數(shù)據(jù)分析模塊被進行深入的解析,并輸出檢測結(jié)果該結(jié)果與安全策略共同作用下,在響應處理模塊被處理。其中,信息源主要是通過數(shù)據(jù)采集功能實現(xiàn)的。在數(shù)據(jù)采集環(huán)節(jié),會對計算機中的系統(tǒng)日志信息、計算機工作狀態(tài)以及網(wǎng)絡數(shù)據(jù)流等信息進行全面的采集。在相應的數(shù)據(jù)采集完成后,相應的信息會傳輸?shù)綌?shù)據(jù)預處理模塊。在該模塊中,主要實現(xiàn)了對相應的數(shù)據(jù)信息進行分類以及篩查的工作。在數(shù)據(jù)分析模塊,主要完成了對經(jīng)過預處理后的數(shù)據(jù)信息進行深度解析的工作,利用數(shù)據(jù)挖掘或是機器學習的方式進行。在相應處理模塊,會結(jié)合系統(tǒng)的安全情況以及實際問題進行處理。
2.2通用入侵檢測框架
在通用入侵檢測框架( CIFD)中,包含著以下的結(jié)構(gòu):事件產(chǎn)生器、事件分析器、事件數(shù)據(jù)庫以及響應單元。其中,在事件產(chǎn)生器中,會對計算機運行數(shù)據(jù)等進行跟蹤采集,并將其中轉(zhuǎn)化為事件與系統(tǒng)共享;在事件分析器中,主要完成了對相應信息數(shù)據(jù)的分析,并進行判斷,生成檢測信息;在事件數(shù)據(jù)庫中,主要實現(xiàn)了對有用信息的存放,該書庫既可以是簡單的txt文件,也可以是更為復雜的數(shù)據(jù)庫;在相應單元中,一旦接收到系統(tǒng)的報警信息后,就會立即做出反應對計算機進行控制,例如切斷連接或是改變文件屬性等等,也可以僅進行單純的報警。
2.3基于通用入侵檢測框架的網(wǎng)絡入侵檢測模型
在基于通用入侵檢測框架的網(wǎng)絡入侵檢測(NIDS)模型中,包含的單元結(jié)構(gòu)如下:網(wǎng)絡數(shù)據(jù)收集單元、預處理單元、事件分析處理單元、入侵響應單元、控制單元、規(guī)則數(shù)據(jù)庫以及入侵日志記錄。其中,在網(wǎng)絡數(shù)據(jù)收集單元,主要完成了對存在于網(wǎng)絡中的數(shù)據(jù)流的收集;在預處理單元,主要完成了對收集的數(shù)據(jù)信息進行標準化,提升后期實際處理的速度;在事件分析處理單元,主要實現(xiàn)了對預處理數(shù)據(jù)信息的分類,并將其與入侵規(guī)則進行匹配,完成對入侵行為的判斷;在入侵響應模塊中,一旦判定存在入侵行為后,該模塊就會做出自衛(wèi)反應,例如收集入侵信息、對入侵來源進行反擊、斷開網(wǎng)絡連接、禁止訪問等等。
2.4 一種基于遷移學習的網(wǎng)絡入侵檢測模型
在基于遷移學習的網(wǎng)絡入侵檢測模型中,主要包含了一下幾個結(jié)構(gòu):數(shù)據(jù)采集模塊、格式化模塊、數(shù)據(jù)預處理模塊、樣本訓練及學習模塊、專家判別模塊、入侵規(guī)則以及入侵記錄數(shù)據(jù)庫。在這一入侵檢測模型中,與其他模型最大的不同之處在于存在樣本訓練集學習模塊,在該模塊中,使用了DTNL算法對數(shù)據(jù)信息進行了分類,得出分類器。通過對分類器的檢測,能夠完成對計算機是否遭受入侵進行判斷。
3數(shù)據(jù)處理與結(jié)果分析
3.1 KDD CUP 1999A侵檢測數(shù)據(jù)集
KDDCUP 1999數(shù)據(jù)集是標準的入侵實驗數(shù)據(jù),由于包含的入侵子信息數(shù)量較多,所以在對其進行入侵分析時,必須要對其進行分類。在KDD CUP 1999數(shù)據(jù)集中存在著的攻擊主要能夠分成四類:U2U、R2L、Probing. DOS,在這四類攻擊中,包含著不同的子攻擊類別。KDD CUP 1999數(shù)據(jù)集有著41維網(wǎng)絡通信數(shù)據(jù)的特征,具體表現(xiàn)為以下幾項:連接內(nèi)容特征、連接基本特征、基于時間窗口為2秒的統(tǒng)計得到的流量特征。
3.2實驗過程
為了能夠?qū)崿F(xiàn)對算法性能的驗證,在實驗中使用了corrected最為測試數(shù)據(jù)集、kddcupdata_lO_percent作為訓練樣本集、KDD CUP1999數(shù)據(jù)集作為文本存儲的形式。在實際的測試中,需要對相應的數(shù)據(jù)信息進行歸一化以及量化處理,其具體的預處理流程如下:選擇KDD CUP 1999數(shù)據(jù)集中的數(shù)據(jù)(x),并對其中形式為字符串的數(shù)據(jù)信息進行統(tǒng)計和量化,將其設定為Xl。對于Xl的屬性值進行范圍的設定(范圍為fO。1.3xl09]),將原地址字節(jié)數(shù)src_bytes以及目標地址字節(jié)數(shù)dstbytes的屬性值進行對數(shù)變換,將范圍縮小至[o.o,9.14],得出X2,并對X2進行歸一化處理,最終得出處理結(jié)果X。
3.3基于DNB的入侵檢測結(jié)果分析
利用KDD CUP 1999數(shù)據(jù)集對DNB算法進行測試,從完成預處理的數(shù)據(jù)中進行實驗樣本的抽取,樣本的具體比例為U2R為100%、R2L為100%、Probe為50%、Normal為3%、DOS為2.5%。將這些數(shù)據(jù)設置在不同的網(wǎng)絡節(jié)點中,使用BA無標度網(wǎng)絡結(jié)構(gòu)進行實驗,采樣的頻率為0.7、訓練的迭代次數(shù)為15、加權系數(shù)為0.8。在進行數(shù)據(jù)分析時,使用corrected數(shù)據(jù)集進行驗證。經(jīng)過基于DNB的入侵檢測實驗后,得出的DNB算法分類正確率具體如下:DNB算法對于U2R處理的正確率為39.6%;對于R2L處理的正確率為7 9%;對于Probe處理的正確率為82 5%;對于Normal處理的正確率為95 8%;對于DOS處理的正確率為93.6%。從這一結(jié)果能夠看出,DNB算法對于R2L的檢測效果較低,但是就整體的性能來說,DNB算法比較優(yōu)越。3.4基于DTNL的入侵檢測結(jié)果分析
為了彌補DNB算法對于R2L的檢測效果較低的問題,可以使用以下的方式進行解決:將在實驗中使用的兩個數(shù)據(jù)集中的所有記錄進行分類,分為Normal以及Abnoprmal。在Abnoprmal中,包含U2U、R2L、Probe、DOS這四種樣本。在經(jīng)過預處理的數(shù)據(jù)樣本中,隨機抽取10000個Abnoprmal樣本以及5000個Normal樣本,并將其設置為訓練樣本,然后再使用DNB算法進行分類。結(jié)果得出,DNB算法在對Normal以及Abnoprmal進行檢測時,都有著較好的效果。
為了對DTNL算法的性能進行測試,可以從完成預處理的數(shù)據(jù)隨機選取四種異常樣本設為訓練樣本,具體的比例為U2R為100%、R2L為100%、Probe為75%、DOS為2.5%。同時選取1000個正常樣本,將其用于遷移學習中。經(jīng)過基于DTNL的入侵檢測實驗后,得出的DTNL算法分類正確率具體如下:對于U2R處理的正確率為39.4%;對于R2L處理的正確率為93%;對于Probe處理的正確率為96.4%;對于DOS處理的正確率為97.8%??梢钥闯?,相比于DNB算法,DTNL算法分類正確率有了進一步的提升。證明了DTNL算法能夠?qū)⒄颖局械闹R遷移到其他環(huán)境中,并對R2L樣本的學習進行指導。
4總結(jié)
綜上所述,經(jīng)過實驗得出,DNB算法對于R2L的檢測效果較低,但是整體的性能比較優(yōu)越;而DTNL算法的正確檢測率更高,能夠?qū)⒄颖局械闹R遷移到其他環(huán)境中,并對R2L樣本的學習進行指導。
參考文獻
[1]袁文翠,孔雪,基于遷移學習的圖像識別研究[J].微型電腦應用,2018,34 (07):10-12.
[2]孔令爽.基于深度學習和遷移學習的入侵檢測研究[D].山東大學,2018.
[3]王東東,基于遷移學習的入侵檢測技術研究[D],中北大學,2015.