姜巍 云南大學(xué)
基于樸素貝葉斯的入侵檢測(cè)優(yōu)化設(shè)計(jì)
姜巍 云南大學(xué)
入侵檢測(cè)系統(tǒng)是一種對(duì)網(wǎng)絡(luò)傳輸進(jìn)行即時(shí)監(jiān)視,在發(fā)現(xiàn)可疑傳輸時(shí)發(fā)出警報(bào)或者采取主動(dòng)反應(yīng)措施的網(wǎng)絡(luò)安全設(shè)備。它與其他網(wǎng)絡(luò)安全設(shè)備的不同之處便在于,IDS是一種積極主動(dòng)的安全防護(hù)技術(shù)。入侵檢測(cè)就是根據(jù)網(wǎng)絡(luò)流的數(shù)據(jù)屬性區(qū)分出正常流量和攻擊流量。
入侵檢測(cè)系統(tǒng) 樸素葉貝葉斯
防火墻是最常見(jiàn)的保護(hù)網(wǎng)絡(luò)安全的方法,它的作用是可以對(duì)外來(lái)攻擊進(jìn)行有效的攔截,然而對(duì)內(nèi)部入侵卻毫無(wú)辦法,所以在一定程度上,防火墻的作用是有局限性的,而入侵檢測(cè)可以說(shuō)是有效地彌補(bǔ)了防火墻的不足和缺陷。入侵檢測(cè)系統(tǒng)根據(jù)入侵檢測(cè)的行為分為兩種模式:異常檢測(cè)和誤用檢測(cè)。前者先要建立一個(gè)系統(tǒng)訪問(wèn)正常行為的模型,凡是訪問(wèn)者不符合這個(gè)模型的行為將被斷定為入侵;后者則相反,先要將所有可能發(fā)生的不利的不可接受的行為歸納建立一個(gè)模型,凡是訪問(wèn)者符合這個(gè)模型的行為將被斷定為入侵。
數(shù)據(jù)挖掘的原理很簡(jiǎn)單,就是可以在已有的數(shù)據(jù)集中,識(shí)別相關(guān)的信息,可以找到之前沒(méi)有的并且是新的信息類型。數(shù)據(jù)挖掘覆蓋面相當(dāng)廣泛,尤其是當(dāng)前的新興技術(shù),滲透到我們的生活當(dāng)中,也廣泛的應(yīng)用到我們的生活當(dāng)中。其中,數(shù)據(jù)挖掘的應(yīng)用方面占主導(dǎo)地位的方法之一就是分類(Classification)。數(shù)據(jù)分析中最為重要的一個(gè)過(guò)程也就是分類。一般有以下步驟:
(1)數(shù)據(jù)的收集:對(duì)所需數(shù)據(jù)的收集有很多方式,如制作網(wǎng)絡(luò)爬蟲(chóng)從網(wǎng)站爬取數(shù)據(jù)、設(shè)備發(fā)送的實(shí)測(cè)數(shù)據(jù)等。
(2)輸入數(shù)據(jù)的準(zhǔn)備:搜集到數(shù)據(jù)要提前變換為符合要求的格式。
(3)輸入數(shù)據(jù)的分析:在這其中不免有一些異常值的數(shù)據(jù),要提前預(yù)處理這些數(shù)據(jù)。
(4)訓(xùn)練算法:在算法中輸入得到的數(shù)據(jù),并汲取有用信息,得到規(guī)律。
(5)算法的測(cè)試:通過(guò)已經(jīng)得到的測(cè)試集,來(lái)檢測(cè)算法;來(lái)觀察算法測(cè)試后的結(jié)果,進(jìn)而發(fā)現(xiàn)其效果。
(6)算法的使用:通過(guò)完成的算法去在新的工作中進(jìn)行驗(yàn)證,觀察其可否在具體的現(xiàn)實(shí)工作環(huán)境中進(jìn)行應(yīng)用。
樸素貝葉斯方法即在已知一些概率的情況下,基于這些概率選擇最佳的類別標(biāo)簽,所以它非常便于應(yīng)用,是一個(gè)基于概率論的算法。
貝葉斯分類器的方法和原理:首先要知道其中對(duì)象的先驗(yàn)概率,其后驗(yàn)概率可以通過(guò)貝葉斯公式計(jì)算出來(lái),最后得到的結(jié)果就是該對(duì)象屬于某一類別標(biāo)簽的概率,通過(guò)結(jié)果的比較,后驗(yàn)概率最大類別標(biāo)簽就是該對(duì)象的類別標(biāo)簽。
設(shè)數(shù)據(jù)集中的元組為X,分類標(biāo)簽集合為C,任意Ci屬于C,求任意元組X的分類標(biāo)簽即求P(C|X).由概率公式可知:
我們的分類問(wèn)題:已知特征向量求其標(biāo)簽,轉(zhuǎn)化為概率問(wèn)題就是在已知特征的條件下,求屬于每個(gè)類別的概率,哪個(gè)類別的概率最大就分類到那個(gè)類別。即求p(C|X)。而求這個(gè)概率需要求向量X與類別的聯(lián)合概率,由于x的維度較高,這是一個(gè)非常難求的概率。因此使用貝葉斯準(zhǔn)則,將其展開(kāi)為一個(gè)先驗(yàn)概率與另一個(gè)條件概率的乘積除以X的先驗(yàn)概率。由于我們求概率的目的是為了比較大小,因此可以將分母看作一個(gè)歸一化因子不去計(jì)算。而另一個(gè)條件概率仍涉及聯(lián)合概率的問(wèn)題。這里作了一個(gè)條件獨(dú)立性假設(shè),即屬性之間相互獨(dú)立,因此該條件概率就可以轉(zhuǎn)化為每個(gè)屬性取值下條件概率的乘積,這就是樸素貝葉斯算法的樸素之處。
實(shí)現(xiàn)入侵檢測(cè)的方法從根本意義上講就是設(shè)計(jì)一個(gè)事件分類器來(lái)將數(shù)據(jù)流中的正常與異常數(shù)據(jù)區(qū)分出來(lái),從而實(shí)現(xiàn)對(duì)攻擊行為的報(bào)警功能。
圖4 -1 入侵檢測(cè)流程
通過(guò)入侵檢測(cè)流程圖可以看到,整個(gè)系統(tǒng)需要兩個(gè)數(shù)據(jù)集一個(gè)是訓(xùn)練集即樣本數(shù)據(jù),另一個(gè)是測(cè)試集即待測(cè)數(shù)據(jù)。首先通過(guò)數(shù)據(jù)挖掘?qū)?shù)據(jù)集作預(yù)處理,因?yàn)椴还苁怯?xùn)練集還是測(cè)試集中的數(shù)據(jù)都是復(fù)雜且冗余的,我們需要?jiǎng)澐謹(jǐn)?shù)據(jù)集中的屬性,劃分屬性特征。當(dāng)測(cè)試集輸入后,還是需要先進(jìn)行預(yù)處理,將測(cè)試集中的網(wǎng)絡(luò)流量進(jìn)行分類,然后通過(guò)映射關(guān)系函數(shù)匹配未知事件與樣本標(biāo)記事件,進(jìn)而得出網(wǎng)絡(luò)流量所屬類別的概率。相比較于其他類型的入侵檢測(cè)系統(tǒng),使用樸素貝葉斯的優(yōu)勢(shì)在于準(zhǔn)確度更高,配合數(shù)據(jù)挖掘?qū)ΜF(xiàn)在海量的網(wǎng)絡(luò)流量更具有針對(duì)性,并且將流量屬性復(fù)雜度大大降低,系統(tǒng)處理速度更快,誤警率大大降低。
整個(gè)優(yōu)化設(shè)計(jì)還有需要完善的地方,比如說(shuō)可以通過(guò)對(duì)流量屬性的細(xì)化控制提高整個(gè)系統(tǒng)的效率和準(zhǔn)確度;可以加入機(jī)器學(xué)習(xí)技術(shù),將大量的網(wǎng)絡(luò)流量作為學(xué)習(xí)樣本,提升對(duì)流量概率的判斷準(zhǔn)確度,這樣可以使整個(gè)系統(tǒng)的準(zhǔn)確度越來(lái)越高。
[1]百度百科“入侵檢測(cè)系統(tǒng)”詞條[EB]/[OL].http://baike.baidu.com/item/入侵檢測(cè)系統(tǒng).2017-06-18
[2]王輝,陳泓予,劉淑芬.基于改進(jìn)樸素貝葉斯算法的入侵檢測(cè)系統(tǒng)[J].河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院.2014-04-15
[3]張亞萍,胡學(xué)鋼,方振國(guó),姜恩華.數(shù)據(jù)缺失條件下的貝葉斯優(yōu)化算法[J].淮北師范大學(xué)物理與電子信息學(xué)院,合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院.2012-04-11
[4]吳為勝,武友新,游建平,萬(wàn)敏.一種基于線性的樸素貝葉斯分類器知識(shí)庫(kù)的組織方法[J].南昌大學(xué)信息工程學(xué)院.2009-10-15
[5]王輝,陳泓予,劉淑芬.基于改進(jìn)樸素貝葉斯算法的入侵檢測(cè)系統(tǒng)[J].河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院.2014-04-15