藍文奇
摘要:互聯(lián)網(wǎng)為信息資源的交流提供了高效而便捷的全新方式,但同時信息資源的安全性也更加重要,信息資源的盜用、入侵、甚至毀壞給互聯(lián)網(wǎng)的信息資源帶來了嚴(yán)重安全威脅。而作為動態(tài)安全系統(tǒng)最核心的技術(shù)之一,入侵檢測技術(shù)在網(wǎng)絡(luò)防御體系中起著極為重要的作用,它是靜態(tài)防護轉(zhuǎn) 化為動態(tài)防護的關(guān)鍵,也是強制執(zhí)行安全策略的有力工具。本文將在闡述網(wǎng)絡(luò)入侵檢測常見方法的基礎(chǔ)上,從數(shù)據(jù)流角度,提出動態(tài)的集成PU學(xué)習(xí)數(shù)據(jù)流分類的入侵檢測方法,在驗證數(shù)據(jù)集上進行突變漂移和逐漸漂移的比較實驗表明,該方法具有較好的分類性能。
關(guān)鍵詞:大數(shù)據(jù);網(wǎng)絡(luò);入侵檢測;PU學(xué)習(xí)算法
中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1007-9416(2019)05-0197-03
0 引言
隨著網(wǎng)絡(luò)快速發(fā)展,數(shù)據(jù)信息呈爆發(fā)式增長,一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合出現(xiàn)。大數(shù)據(jù)的出現(xiàn)意味著數(shù)據(jù)安全面臨更加嚴(yán)峻的考驗。網(wǎng)絡(luò)發(fā)展初期在對抗網(wǎng)絡(luò)入侵的安全部署中被動式防御的防火墻得到了廣泛應(yīng)用;隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)入侵手段更加復(fù)雜多樣、層出不窮,而入侵檢測作為一種積極主動的安全防護技術(shù),提供了對內(nèi)外部攻擊和誤操作的實時保護,很好地彌補了防火墻的不足。
現(xiàn)階段在入侵檢測研究中應(yīng)用數(shù)據(jù)挖掘技術(shù)以提高系統(tǒng)性能已成為重要趨勢。較有代表性的工作有采用數(shù)據(jù)挖掘算法從系統(tǒng)審計數(shù)據(jù)中抽取活動模式及特征,并根據(jù)獲得的特征定義從審計數(shù)據(jù)中生成入侵檢測規(guī)則;采用支持向量機來抽取網(wǎng)絡(luò)數(shù)據(jù)的特征,建立入侵檢測模型;其它還包括關(guān)聯(lián)規(guī)則、奇異點挖掘、聚類算法、分類算法、遺傳算法等。目前數(shù)據(jù)挖掘蓬勃發(fā)展,出現(xiàn)了很多新的挖掘方法,一些新的挖掘思路在入侵檢測領(lǐng)域鮮有應(yīng)用研究。在論文的研究中,用正例未標(biāo)注(PU,Positive and Unlabeled)來模型化數(shù)據(jù)進行分類分析的入侵檢測研究,根據(jù)不同數(shù)據(jù)集的特點進行入侵檢測的數(shù)據(jù)流挖掘研究,提出相關(guān)算法,并通過實驗證明了算法在該種數(shù)據(jù)集挖掘上的優(yōu)勢。
1 入侵檢測技術(shù)常見方法與發(fā)展趨勢
1.1 入侵檢測技術(shù)常見方法
入侵檢測是通過檢測網(wǎng)絡(luò)和系統(tǒng)以發(fā)現(xiàn)違反網(wǎng)絡(luò)安全策略事件的過程,入侵檢測模型最早由美國斯坦福國際研究所(SRI)D.E.Denning提出來的,目前的各種入侵檢測技術(shù)和體系都是在此基礎(chǔ)上的擴展(圖1表示了該通用模型的體系結(jié)構(gòu))。
入侵檢測技術(shù)的方法很多,現(xiàn)階段常用的如表1所示。
1.2 入侵檢測技術(shù)的發(fā)展趨勢
首先,入侵檢測智能化。針對入侵行為方法的復(fù)雜多樣,未來需要通過改進入侵檢測模型和方法,將學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能應(yīng)用于入侵檢測領(lǐng)域,較為一致的解決方案為將智能檢測軟件或模塊與常規(guī)入侵檢測系統(tǒng)結(jié)合使用。
其次,分布式入侵檢測技術(shù)。傳統(tǒng)入侵檢測系統(tǒng)是在網(wǎng)絡(luò)的不同網(wǎng)段放置探測器來收集網(wǎng)絡(luò)信息,或在多個檢測主機上設(shè)置代理主機安全信息,然后將它們傳輸?shù)街髦破鬟M行分析處理。此種模式缺乏對異構(gòu)系統(tǒng)及大數(shù)據(jù)量網(wǎng)絡(luò)的檢測能力,不能適應(yīng)大規(guī)模分布式入侵在大型網(wǎng)絡(luò)中發(fā)生的情況。而分布式入侵檢測技術(shù)是從網(wǎng)絡(luò)中的不同關(guān)鍵點收集信息用于檢測,其關(guān)鍵技術(shù)為檢測信息的協(xié)同處理與入侵攻擊的全局信息的提取。
再次,入侵檢測技術(shù)標(biāo)準(zhǔn)化。從體系結(jié)構(gòu)、通信機制、消息格式等各方面對IDS規(guī)范化,具有標(biāo)準(zhǔn)化接口將是下 一代IDS的基本特征。
最后,入侵檢測系統(tǒng)與其他安全技術(shù)以及產(chǎn)品相結(jié)合。入侵檢測系統(tǒng)作為一種重要的安全部件,在保障網(wǎng)絡(luò)與信息安全方面發(fā)揮的作用有限,實現(xiàn)安全組件之間聯(lián)動越來越重要,因此對于安全部件之間的互動協(xié)議和接口標(biāo)準(zhǔn)的研究是入侵檢測研究的一個重要方向。目前主要是與防火墻、認(rèn)證等網(wǎng)絡(luò)安全技術(shù)相結(jié)合。但隨著網(wǎng)絡(luò)規(guī)模越來越大,結(jié)構(gòu)越來越復(fù)雜,還需要多個安全組件提供更加完善的計算機網(wǎng)絡(luò)安全保障。
2 動態(tài)集成PU學(xué)習(xí)算法的入侵檢測方法
在入侵檢測研究中,PU學(xué)習(xí)算法可降低人工標(biāo)注訓(xùn)練樣本的工作量,在基于PU學(xué)習(xí)馬爾可夫模型的入侵檢測中取得了良好的分類效果,目前針對數(shù)據(jù)流的分類算法主要是針對全標(biāo)記的數(shù)據(jù)流,而本文將從數(shù)據(jù)流角度,提出一種動態(tài)的集成PU學(xué)習(xí)數(shù)據(jù)流分類的入侵檢測方法。
2.1 相關(guān)工作
本文提出一種動態(tài)的集成PU學(xué)習(xí)數(shù)據(jù)流分類的入侵檢測方法 DCEPU,在只標(biāo)注入侵樣本條件下,在入侵樣本和普通樣本中學(xué)習(xí)得到分類器,可進行入侵行為識別。實驗證明該集成方法處理數(shù)據(jù)流的分類檢測時,比PU單分類器有較高的分類精度,增強了實用性。
2.2 動態(tài)集成PU學(xué)習(xí)數(shù)據(jù)流分類方法
在數(shù)據(jù)流上針對每個數(shù)據(jù)批(Data Batch),分別用POSC45、PTAN、PHNB算法構(gòu)造基分類器,這里給出PU學(xué)習(xí)數(shù)據(jù)流動態(tài)分類器集成方法DECPU,在數(shù)據(jù)批Di上的學(xué)習(xí)算法為:
算法1:DECPU動態(tài)分類器集成學(xué)習(xí)算法
輸入:訓(xùn)練數(shù)據(jù)流,其中Pi表示第i個數(shù)據(jù)批上的正例訓(xùn)練樣本集,Ui表示第i個數(shù)據(jù)批上的未標(biāo)注訓(xùn)練樣本集。
z,集成分類器的大小;
輸出:集成分類器Ei。
(1);
(2)? else{刪除Ei-1中g(shù)etAccuracy(Di)最小的3個基分類器;};
(3)return Ei。
在數(shù)據(jù)批Di上,利用POSC45、PTAN、PHNB 3種PU學(xué)習(xí)算法構(gòu)造出3 個基分類器,如果集成分類器Ei-1中基分類器個數(shù)小于z,將新訓(xùn)練出來的分類器直接存放到Ei-1中;否則,刪除Ei-1中性能最差的3個基分類器后,再將新訓(xùn)練出來的分類器直接存放到Ei-1中;返回得到的集成分類器Ei。
這里,getAccuracy(Di)用于估算基分類器在數(shù)據(jù)批Di上的分類性能。
針對待檢測樣本t,DECPU的動態(tài)分類器集成分類算法如下:
算法2:DECPU的動態(tài)分類器集成分類算法
輸入:t,待分類樣本;
訓(xùn)練數(shù)據(jù)流
輸出:樣本t的檢測結(jié)果。
(1)centroID=the centroid of Pi;
(2)Sort samples in Ui according to its distance to centroID descendingly;
(3)V=top? samples in the sequence;
(4)V=;
(5)For each ;
(6)Tj.weight=Tj.getAccuracy(V);
(7)endfor;
(8)通過加權(quán)投票的方式計算t的類別標(biāo)簽l;
(9)Return l。
其中,centorlID為正例樣本集Pi的質(zhì)心,在未標(biāo)注樣本集Ui中,計算到該質(zhì)心距離最遠(yuǎn)的個樣本,構(gòu)成數(shù)據(jù)集V,從而得到驗證數(shù)據(jù)集V=。在驗證數(shù)據(jù)集V上,估算集成分類器Ei中每個基分類器的準(zhǔn)確度,并依次作為權(quán)重,進行加權(quán)投票,預(yù)測待檢測樣本t的類別。
2.3 實驗與分析
實驗數(shù)據(jù)集采用KDD99數(shù)據(jù)集,使用PU的POSC45、PTAN、PHNB,作為基礎(chǔ)分類器,對DECPU方法和Stacking的靜態(tài)集成方法進行概念逐漸漂移和突變漂移實驗。
在逐漸漂移實驗中,采用KDD99數(shù)據(jù)集的Probe、DoS兩種中攻擊方式,分為A、B兩組不斷轉(zhuǎn)換在場景中的比例作為攻擊概念的漂移,每個場景共生成39批數(shù)據(jù)集,每批上包含2000個相關(guān)攻擊樣本和6000個正常數(shù)據(jù)。在每個場景中,攻擊手段在Probe和DoS方式之間進行漂移。在每一個批中,標(biāo)記Probe、DoS攻擊樣本H個正例樣本,另外的樣本作為未標(biāo)記樣本,正例樣本從Probe或DoS中隨機獲得。
場景A為概念無漂移時,即入侵攻擊全部為Probe方式時。在場景B中從第5批開始,由Probe攻擊到DoS攻擊的比例每隔5批變化20%,并到第25批以后完全變?yōu)镈oS攻擊。在C和D場景中,模擬攻擊手段Probe和DoS所占比例在不斷地變化中。其中場景D的比例變化較大。以上得到的F1指標(biāo)變化如圖2所示。
由圖2的F1指標(biāo)變化可以看出,場景A中當(dāng)概念沒有出現(xiàn)漂移時,動態(tài)分類集成算法DCEPU分類效果優(yōu)于靜態(tài)集成算法Stacking。在場景B中,當(dāng)?shù)?0批時,攻擊手段突變比例較大,造成兩種算法分類效果下降幅度較大,隨著Probe攻擊逐步被DoS攻擊取代,在第20批樣本后,分類效果逐步回升,并基本保持穩(wěn)定,DCEPU算法整體比Stacking算法好。
在場景C和D中F1的值都出現(xiàn)了震蕩變化,但總體上DCEPU算法比Stacking算法更適應(yīng)逐漸漂移的概念變化。
在突變漂移實驗中,同樣采用Probe、DoS這兩種中攻擊方式作為正例,并在這兩種攻擊方式間作突變漂移。
突變漂移的場景為E、F、G、H四種,其中場景E為攻擊手段的突變表現(xiàn)在每個批次中,突變頻率最高,F(xiàn)場景中則為攻擊手段間隔性突變,為每隔 5個批次發(fā)生一次,在G和H場景中,攻擊手段的突變頻率變低,為漸歇性突變,各場景的F1指標(biāo)變化如圖3所示。
由圖3的F1指標(biāo)變化可以看出,在場景E時,由于突變不斷變化導(dǎo)致,F(xiàn)1指標(biāo)波動比較大,在F、G、H場景中,在突變漂移發(fā)生時,F(xiàn)1指標(biāo)下滑,分類效果下降,總體上,DCEPU算法在適應(yīng)突變漂移的能力上比Stacking算法要好。
3 結(jié)語
本文探討了基于入侵?jǐn)?shù)據(jù)流的PU學(xué)習(xí)動態(tài)分類器集成檢測方法,提出一種動態(tài)的集成PU學(xué)習(xí)數(shù)據(jù)流分類的入侵檢測算法DCEPU,在只標(biāo)注入侵樣本(正例)條件下,在正例和未標(biāo)注樣本中學(xué)習(xí)得到分類器,進行入侵行為識別。在真實數(shù)據(jù)集模擬的各種攻擊手段突變和漸變的變化實驗中,通過與Stacking算法進行F1指標(biāo)變化曲線的比對顯示了該算法具有更好的概念漂移處理能力,取得了較好的分類效果。
參考文獻
[1] 蔣亞平,曹聰聰,梅驍.網(wǎng)絡(luò)入侵檢測技術(shù)的研究進展與展望[J].輕工學(xué)報,2017,32(3):63-72.
[2] 樊佩佩,楊德義.淺析計算機網(wǎng)絡(luò)入侵檢測中免疫機制的應(yīng)用[J].科學(xué)技術(shù)創(chuàng)新,2018(18):74-75.
[3] 蔣永旺,張迪.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測方案實現(xiàn)[J].自動化與儀器儀表,2018(7):810-816.
[4] 謝景偉.基于云計算架構(gòu)的大規(guī)模網(wǎng)絡(luò)入侵檢測算法[J].電子技術(shù)與軟件工程,2017(24):202-203.
[5] 李成云,支冬棟.基于動態(tài)SVM的網(wǎng)絡(luò)入侵檢測研究[J].計算機與數(shù)字工程,2012,40(11):118-120.
[6] 王曙霞.大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)主動入侵檢測方法研究[J].科技通報,2015,31(8):225-227.
[7] 費宏慧,李健.大數(shù)據(jù)的分布式網(wǎng)絡(luò)入侵實時檢測仿真[J].計算機仿真,2018,35(3):267-270.