桂林電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西 桂林 541004
桂林電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西 桂林 541004
傳統(tǒng)的入侵檢測(cè)模型存在檢測(cè)精度低、速度慢、計(jì)算量大等問(wèn)題,很大程度上受制于檢測(cè)算法。目前入侵檢測(cè)技術(shù)逐漸向智能化[1]和分布式[2]兩個(gè)方向擴(kuò)展,使用網(wǎng)絡(luò)流作為審計(jì)數(shù)據(jù)來(lái)源對(duì)入侵檢測(cè)模型進(jìn)行性能評(píng)估。將異常檢測(cè)技術(shù)[3]應(yīng)用于大型入侵檢測(cè)系統(tǒng)中,使入侵檢測(cè)系統(tǒng)具備一定的學(xué)習(xí)能力,從而提高識(shí)別率。
對(duì)入侵行為進(jìn)行聚類分析是一種誤報(bào)率低的檢測(cè)方法[4],而對(duì)分類器進(jìn)行優(yōu)化訓(xùn)練是一種較為常用的方法[5]。但在實(shí)際大規(guī)模網(wǎng)絡(luò)監(jiān)測(cè)中,數(shù)據(jù)流量巨大,異常檢測(cè)模塊會(huì)因?yàn)橛?xùn)練時(shí)間過(guò)長(zhǎng)而無(wú)法有效監(jiān)測(cè)入侵行為。特別是遇到各種拒絕服務(wù)攻擊時(shí),入侵檢測(cè)系統(tǒng)將面臨嚴(yán)重的內(nèi)存危機(jī),響應(yīng)速度變慢。
為了提高入侵檢測(cè)對(duì)各種網(wǎng)絡(luò)攻擊的檢測(cè)率,增強(qiáng)檢測(cè)模型的泛化能力,本文研究一種基于SVM(支持向量機(jī))的智能入侵檢測(cè)分類算法。由于具有學(xué)習(xí)能力的SVM在數(shù)據(jù)分類方面有著廣泛的應(yīng)用,本文對(duì)SVM算法在入侵檢測(cè)中的可行性進(jìn)行了理論論證,引入了高維核函數(shù)概念,在進(jìn)行數(shù)據(jù)預(yù)處理的基礎(chǔ)上,對(duì)核函數(shù)相關(guān)參數(shù)采用了兩種不同的優(yōu)化算法進(jìn)行選取,以減少訓(xùn)練時(shí)間,提高預(yù)測(cè)精度,為SVM在實(shí)際應(yīng)用中的優(yōu)化提供指導(dǎo)。
2.1 支持向量機(jī)應(yīng)用
支持向量機(jī)是一種適用性較好的機(jī)器學(xué)習(xí)算法,通過(guò)尋找一個(gè)最優(yōu)分類超平面,使訓(xùn)練集的分類間隔達(dá)到最大化來(lái)進(jìn)行分類。在處理小樣本問(wèn)題時(shí),SVM的泛化能力是最好的。因此,在入侵檢測(cè)系統(tǒng)中引入SVM方法,可以使入侵系統(tǒng)具有學(xué)習(xí)機(jī)制,很大程度上提高入侵檢測(cè)系統(tǒng)的識(shí)別率,減少防御階段的實(shí)時(shí)工作量,提高效率。
2.2 支持向量機(jī)分類器
建立線性分類機(jī)的前提是問(wèn)題是否線性可分。對(duì)于訓(xùn)練集中的兩類樣本,若能用一個(gè)超平面將兩者完全分開,那么該問(wèn)題是線性可分的。但是線性分類器并不是萬(wàn)能的。如圖1所示,當(dāng)遇到線性不可分的情況時(shí),線性分類器無(wú)法找到最優(yōu)超平面。
圖1 數(shù)據(jù)樣本線性不可分的情況
當(dāng)在低維的數(shù)據(jù)線性不可分時(shí),分類器將陷入死循環(huán),只有映射到高維[6]后可以使得數(shù)據(jù)線性可分。將數(shù)據(jù)映射到如圖1中的二次曲線上,則可根據(jù)二次曲線的函數(shù)值來(lái)分類。設(shè)原始特征內(nèi)積為<x,z>,映射后為<Φ(x),Φ(z)>,那么定義核函數(shù)為:
選擇不同形式的核函數(shù)K就可以生成不同的支持向量機(jī)。例如線性、多項(xiàng)式、徑向基和高斯核函數(shù)。根據(jù)Mercer定理,本文選定徑向基核函數(shù):
RBF具備其他核函數(shù)的優(yōu)點(diǎn)[7]:一個(gè)有懲罰參數(shù)C的線性核與有參數(shù)C和核參數(shù)σ的RBF核具有相同的性能;與多項(xiàng)式核相比,RBF核參數(shù)少,有利于模型選擇;對(duì)一些參數(shù),Sigmoid核與RBF核具有相似的性能。RBF核不僅可以將樣本映射到一個(gè)更高維的空間,還可以處理當(dāng)類標(biāo)簽和特征之間的關(guān)系是非線性時(shí)的樣例[8]。
2.3 不可分情況的軟間隔處理
當(dāng)數(shù)據(jù)樣本線性不可分時(shí),可以使用核函數(shù)來(lái)將特征映射到高維來(lái)提高數(shù)據(jù)可分性。然而映射后并不能保證數(shù)據(jù)100%可分。例如圖2的數(shù)據(jù)分布。
圖2 出現(xiàn)離群點(diǎn)造成超平面偏斜的情況
在圖2中,一個(gè)離群點(diǎn)可以造成超平面的移動(dòng),而分類面的偏斜會(huì)造成間隔縮小。因此,分類模型對(duì)噪聲有極大的敏感性。如果離群點(diǎn)在另外一個(gè)類中,那么將會(huì)出現(xiàn)線性不可分的情況。在這種情況下,應(yīng)該允許一些點(diǎn)游離并在模型中違背函數(shù)間隔大于1的限制。因此引入非負(fù)的松弛變量ξi,在最大間隔區(qū)間里面放松限制條件,允許樣本點(diǎn)在對(duì)方的區(qū)域中。即軟間隔法:
其中,C是離群點(diǎn)的權(quán)重,C越大表明離群點(diǎn)對(duì)目標(biāo)函數(shù)影響越大,也就是越不希望看到離群點(diǎn)。式(3)中以C為系數(shù)的項(xiàng)的表示離群點(diǎn)越多,目標(biāo)函數(shù)值越大。目標(biāo)函數(shù)控制了離群點(diǎn)的數(shù)目和程度,使大部分樣本點(diǎn)仍然遵守限制條件。模型修改后,相應(yīng)的拉格朗日公式為:
其中,αi和ri都是拉格朗日乘子,分別對(duì)其參數(shù)求偏導(dǎo),得到w和b的表達(dá)式。然后代入公式中,求帶入后公式的極大值。最后推導(dǎo)出:
2.4 多類入侵分類器的算法結(jié)構(gòu)
目前將SVM應(yīng)用于多類分類的方法較多,其中一些代表性的方法如1-vs-1,1-vs-r以及DAG-SVM(基于有向無(wú)環(huán)圖的大間隔多類SVM分類器)等都卓有成效。而這幾種方法都是在兩類分類器[9]的基礎(chǔ)上,進(jìn)行分類器組合決策分類的,圍繞兩類分類的思路,本文對(duì)其訓(xùn)練參數(shù)進(jìn)行優(yōu)化。
3.1 入侵檢測(cè)實(shí)驗(yàn)數(shù)據(jù)的選取
在研究人員使用的數(shù)據(jù)集中,由MIT LL采集并由哥倫比亞大學(xué)IDS實(shí)驗(yàn)室整理的安全審計(jì)數(shù)據(jù)集KDDCUP99是公認(rèn)的入侵檢測(cè)數(shù)據(jù)集[10-11]。由于原數(shù)據(jù)集數(shù)據(jù)記錄超過(guò)百萬(wàn)條,因此本文選取其中10%的數(shù)據(jù)集合進(jìn)行研究。
該數(shù)據(jù)集提供了從一個(gè)模擬的局域網(wǎng)上采集來(lái)的九個(gè)星期的數(shù)據(jù),政府和空軍的一千臺(tái)主機(jī)上近百個(gè)用戶的正常通訊的數(shù)據(jù)被記錄為TCPDUMP格式,在這個(gè)文本格式的文件中所包含攻擊類型有38種,所有的特征共41維,分別包括:基本特征、內(nèi)容特征、2 s內(nèi)流量特征以及主機(jī)流量特征。
3.2 數(shù)據(jù)預(yù)處理
由于從數(shù)據(jù)集中獲取的向量中存在一些分類過(guò)程中不能識(shí)別的屬性,如字符型屬性。為不影響分類器訓(xùn)練,因此在對(duì)數(shù)據(jù)分類前必須對(duì)含有字符型的屬性進(jìn)行數(shù)值化預(yù)處理。如KDDCUP99數(shù)據(jù)集中的協(xié)議類型,原屬性值為 tcp,icmp,udp,可以分別用整型數(shù)值1,2,3來(lái)替換。類似地,對(duì)于第3、4和42項(xiàng)屬性分別進(jìn)行數(shù)值化操作。
特別地,對(duì)于第42項(xiàng)屬性單獨(dú)地提取出來(lái),構(gòu)成一個(gè)N×1的矩陣,作為數(shù)值化后的類別標(biāo)簽,其中分為5類:normal屬性值歸為類別1;land,neptune,pod,smurf,teardrop屬于 dos,歸為類別 2;buffer_overflow,loadmodule,perl,rootkit屬于 u2r,歸 為類別 3;ftp_write,guess_passwd,imap,multihop,phf,spy,warezclient,warezmaster屬于r2l,歸為類別4;ipsweep,nmap,portsweep,satan屬于probe,歸為類別5。
對(duì)于剩下的41個(gè)屬性構(gòu)成的子集,由于原先屬性之間的度量值標(biāo)準(zhǔn)不一樣,會(huì)造成輸出數(shù)據(jù)中數(shù)值小的一方消失的現(xiàn)象。因此必須對(duì)屬性值標(biāo)準(zhǔn)化,把原度量值轉(zhuǎn)換成無(wú)單位值。此過(guò)程即數(shù)據(jù)歸一化,其公式如式(8)所示:
其中 ymax和 ymin是歸一化的區(qū)間上下限,xmax和xmin是原數(shù)值的最大最小值,x為屬性值,y為屬性歸一化后的最終值。
在經(jīng)過(guò)數(shù)值化與標(biāo)準(zhǔn)化處理的每條記錄中,可以發(fā)現(xiàn)屬性數(shù)目過(guò)多,這會(huì)降低分類算法的收斂速度。Bazi,Y等人[12]在分類準(zhǔn)確率沒(méi)有下降的情況下對(duì)數(shù)據(jù)集進(jìn)行特征抽取,提高訓(xùn)練和分類的速度。使用RS、SVDF、LGP和MARS等算法,相關(guān)研究證明[13],由3,4,5,24,32,33構(gòu)成的屬性子集合保存了重要的信息,能夠最大程度地表示每條記錄上的基本屬性。
4.1 遺傳算法對(duì)訓(xùn)練參數(shù)的優(yōu)化
用預(yù)處理后的kddcup99數(shù)據(jù)集進(jìn)行測(cè)試。隨機(jī)選取的訓(xùn)練和測(cè)試數(shù)據(jù)樣本分布為:正常行為(Normal)1 000條;拒絕服務(wù)(DoS)817條;嗅探(Probe)23條;獲取權(quán)限(U2R)37條;遠(yuǎn)程登錄攻擊(R2L)374條。
在訓(xùn)練過(guò)程中,參數(shù)的選取與分類精度有著不可分割的關(guān)系。懲罰參數(shù)C和核函數(shù)參數(shù)σ沒(méi)有公認(rèn)的優(yōu)化選取方法。遺傳算法(Genetic Algorithm)是一種廣泛應(yīng)用于最優(yōu)解搜索。在相關(guān)文獻(xiàn)[8]中,采用GA遺傳算法搜索最優(yōu)參數(shù)算法更適合于大樣本、非均衡的數(shù)據(jù)集。根據(jù)適應(yīng)度函數(shù),在復(fù)雜解空間中,GA遺傳算法能快速計(jì)算全局最優(yōu)解,其相關(guān)應(yīng)用已經(jīng)得到證明[14]。因此,可以考慮使用GA遺傳算法優(yōu)化訓(xùn)練參數(shù)。首先將樣本取50%作為訓(xùn)練集。其次,將最大進(jìn)化代數(shù)設(shè)為100,種群大小設(shè)為20,懲罰參數(shù)C和核函數(shù)參數(shù)σ的搜索范圍分別為0到256和0到100,代溝率設(shè)為0.9。最后,在參數(shù)尋優(yōu)過(guò)程中,將訓(xùn)練集分成k份進(jìn)行k-折疊交叉驗(yàn)證。將訓(xùn)練集分為k份,每次驗(yàn)證中,k-1份作為訓(xùn)練集,剩下的作為測(cè)試集。每個(gè)模型訓(xùn)練k次,測(cè)試k次,錯(cuò)誤率為k次的均值。一般k取值為10能使分類器在測(cè)試集中獲得較高的精度。但過(guò)多的訓(xùn)練和測(cè)試次數(shù)會(huì)導(dǎo)致計(jì)算量的增加。由于硬件配置的限制,在實(shí)驗(yàn)中將k值設(shè)置為3,以減少內(nèi)存占用和驗(yàn)證時(shí)間。
4.2 改進(jìn)的粗細(xì)網(wǎng)格搜索算法
GA遺傳算法搜索最優(yōu)解的覆蓋面大,但是容易陷入局部最優(yōu)解。為了提高參數(shù)尋優(yōu)算法的收斂速度,本文提出一種粗細(xì)網(wǎng)格搜索算法,相對(duì)于固定參數(shù)搜索的網(wǎng)格算法[15]具有更小的運(yùn)算開銷,搜索精度也得到提高。粗細(xì)網(wǎng)格搜索算法具體分為以下幾個(gè)步驟:
(1)初始化尋優(yōu)范圍,根據(jù)參數(shù)C的取值范圍[C1,Cm],C被m等分為公比為(Cm/C1)1/(m-1)的等比數(shù)列{C1,C2,…,Cm};根據(jù)參數(shù)σ的取值范圍[σ1,σn],參數(shù)σ被n等分為公比為(σn/σ1)1/(n-1)的等比數(shù)列{σ1,σ2,…,σn}。將{C1,C2,…,Cm}與{σ1,σ2,…,σn}組合成 m × n× 2的三維數(shù)組 Pm×n×2={[(C1,σ1),…,(C1,σn)],…,[(Cm,σ1),…,(Cm,σn)]}。
(2)遍歷 Pm×n×2中的數(shù)據(jù)。設(shè) i={1,2,…,m},j={1,2,…,n},用參數(shù)組合 (Pij1,Pij2)訓(xùn)練分類器,在K折交叉驗(yàn)證中的計(jì)算分類準(zhǔn)確率,比較最高準(zhǔn)確率并記錄下最優(yōu)參數(shù)組合(C*,σ*)。當(dāng)有多組最優(yōu)解組合時(shí),選C值最小的一組。
(3)在細(xì)網(wǎng)格內(nèi)遍歷參數(shù)組合。根據(jù)粗略篩選獲得的參數(shù)組合(C*,σ*),參數(shù)C的取值范圍變?yōu)閇C*×(Cm/C1)-2/(m-1),C*×(Cm/C1)2/(m-1)],替代初始范圍 [C1,Cm];參數(shù)σ的取值范圍變?yōu)閇σ*×(σn/σ1)-2/(n-1),σ*×(σn/σ1)2/(n-1)],替代初始范圍[σ1,σn]。
(4)重復(fù)步驟(1)到(3),當(dāng)獲得的參數(shù)組合 (C*,σ*)以及準(zhǔn)確率不再改變時(shí)結(jié)束循環(huán),輸出最優(yōu)參數(shù)組合(C*,σ*)、循環(huán)次數(shù)和最優(yōu)驗(yàn)證率。
4.3 訓(xùn)練和測(cè)試結(jié)果分析
為便于比較,實(shí)驗(yàn)采用與GA參數(shù)尋優(yōu)相同的訓(xùn)練集和交叉驗(yàn)證方式。其中,粗細(xì)網(wǎng)格搜索算法的實(shí)驗(yàn)過(guò)程分為兩個(gè)階段:
(1)在大范圍中粗略搜索,將參數(shù)C的取值范圍設(shè)為[2-4,28],C 被分為24等份;將參數(shù)σ的取值范圍設(shè)為 [2-4,24],同時(shí)σ被分為16等份。記錄下不同參數(shù)組合下分類準(zhǔn)確率最高的參數(shù)C*和參數(shù)σ*。參數(shù)優(yōu)化分布如圖3。
圖3 經(jīng)過(guò)粗網(wǎng)格搜索選取的參數(shù)C和參數(shù)σ三維等高線分布
在圖3中,Z軸為分類準(zhǔn)確率,X軸與Y軸分別為以2為底的參數(shù)C的對(duì)數(shù)和以2為底的參數(shù)σ的對(duì)數(shù),最優(yōu)參數(shù)的分布曲面呈上凸趨勢(shì),函數(shù)極值點(diǎn)的分布收斂于小塊閉區(qū)間,在得到的閉區(qū)間范圍內(nèi)繼續(xù)進(jìn)行精密搜索。由粗細(xì)網(wǎng)格搜索算法獲得優(yōu)化參數(shù)的粗略分布如圖4。
圖4 經(jīng)過(guò)粗細(xì)網(wǎng)格搜索算法優(yōu)化的參數(shù)C和σ的分布
圖4為粗略選擇的二維分布映射,交叉驗(yàn)證準(zhǔn)確率分布在各條曲線上,X軸與Y軸分別為以2為底的參數(shù)C的對(duì)數(shù)和以2為底的參數(shù)σ的對(duì)數(shù),最優(yōu)參數(shù)的組合分布逐漸收斂于準(zhǔn)確率高的區(qū)間,說(shuō)明最優(yōu)參數(shù)組合分布集中于更小塊區(qū)域。
(2)在小范圍中精細(xì)搜索,根據(jù)(1)中獲得的參數(shù)組合,將參數(shù)C和參數(shù)σ的取值范圍縮小。最終得到參數(shù)C和參數(shù)σ的組合分布如圖5所示。
圖5 經(jīng)過(guò)細(xì)網(wǎng)格搜索選取的參數(shù)C和參數(shù)σ三維等高線分布
在圖5中,Z軸為分類準(zhǔn)確率,X軸與Y軸分別為以2為底的參數(shù)C的對(duì)數(shù)和以2為底的參數(shù)σ的對(duì)數(shù),最優(yōu)參數(shù)的分布面為平面,函數(shù)極值點(diǎn)的分布收斂于頂端平面閉區(qū)間,此時(shí)在一組最優(yōu)解組合中選取參數(shù)C最小的一組,最后可得到分類準(zhǔn)確率最高的參數(shù)C和參數(shù)σ的組合。
用改進(jìn)的粗細(xì)網(wǎng)格搜索算法與GA遺傳算法進(jìn)行參數(shù)優(yōu)化實(shí)驗(yàn)的比較,用其余50%的入侵?jǐn)?shù)據(jù)樣本分別進(jìn)行分類測(cè)試,仿真結(jié)果如表1所示。
表1 粗細(xì)網(wǎng)格搜索法與GA遺傳算法性能比較
根據(jù)表1可以看出,參數(shù)值越小,時(shí)間開銷越少。利用GA遺傳算法優(yōu)化的參數(shù)能在實(shí)際樣本分類中達(dá)到較高的準(zhǔn)確率,但訓(xùn)練時(shí)間開銷大,約為粗細(xì)網(wǎng)格搜索算法的3倍,對(duì)于數(shù)據(jù)分布較為均衡的復(fù)雜數(shù)據(jù)分類,參數(shù)優(yōu)化的優(yōu)勢(shì)并不明顯。而通過(guò)改進(jìn)的粗細(xì)網(wǎng)格搜索法在保證高分類準(zhǔn)確率的前提下,所獲得的參數(shù)C和參數(shù)σ相對(duì)來(lái)說(shuō)有明顯的時(shí)間優(yōu)勢(shì),是一種在入侵檢測(cè)數(shù)據(jù)分類處理中相對(duì)高效的參數(shù)優(yōu)化方法。
如何有效地對(duì)數(shù)據(jù)集進(jìn)行特征抽取是提高入侵檢測(cè)率的必要手段,而參數(shù)選取對(duì)SVM分類器的性能至關(guān)重要。為此,提出一種粗細(xì)網(wǎng)格參數(shù)搜索算法。通過(guò)實(shí)驗(yàn)分析,在使用支持向量機(jī)進(jìn)行數(shù)據(jù)分類之前進(jìn)行采用粗細(xì)網(wǎng)格搜索算法對(duì)訓(xùn)練參數(shù)進(jìn)行優(yōu)化,在提高分類準(zhǔn)確率基礎(chǔ)上,SVM算法的收斂速度也得到了提高。通過(guò)與GA遺傳算法的比較結(jié)果表明,支持向量機(jī)分類算法是一種在實(shí)際應(yīng)用中具有高可行性的網(wǎng)絡(luò)入侵檢測(cè)手段,粗細(xì)網(wǎng)格搜索算法更適合對(duì)SVM訓(xùn)練參數(shù)進(jìn)行優(yōu)化。
[1]Macia-Perez F,Mora-Gimeno F,Marcos-Jorquera D,et al. Network intrusion detection system embedded on a smart sensor[J].IEEE Transactions on Industrial Electronics,2011,58:722-732.
[2]Rehak M,Pechoucek M,Grill M,et al.Adaptive multiagent system for network traffic monitoring[J].Intelligent Systems,2009,24:16-25.
[3]Gong Yunlu,Mabu S,Chen Ci,et al.Intrusion detection system combining misusedetection and anomaly detection using genetic network programming[C]//ICCAS-SICE,2009:3463-3467.
[4]Qian Yuwen,Song Huaju,Gao Hua.Intrusion detection based on support vector machine divided up by clusters[C]//2010 International Conference on Electrical and Control Engineering(ICECE),2010:2813-2815.
[5]Liu Hui,Cao Yonghui.Research intrusion detection techniques from the perspective of machine learning[C]//2010 2nd International Conference on Multimedia and Information Technology(MMIT),2010:166-168.
[6]Liang Xun,Chen Rong-Chang,Guo Xinyu.Pruning support vector machines without altering performances[J].IEEE Transactions on Neural Networks,2008,19:1792-1803.
[7]Melgani F,Bazi Y.Classification of electrocardiogram signals with support vector machines and particle swarm optimization[J].IEEE Transactionson Information Technology in Biomedicine,2008,12:667-677.
[8]Cao Lijia,Zhang Shengxiu,Li Xiaofeng,et al.Nonlinear adaptive block backstepping control using command filter and neural networks approximation[J].Information Technology Journal,2011,10:2284-2291.
[9]Camps-Valls G,Gomez-Chova L,Munoz-Mari J.Kernel-based framework for multitemporal and multisource remote sensing data classification and change detection[J].IEEE Transactionson GeoscienceandRemoteSensing,2008,46:1822-1835.
[10]Wang Jun,Li Taihang,Ren Rongrong.A real time IDSs based on artificial bee colony-support vector machine algorithm[C]// 2010 3rd International Workshop on Advanced Computational Intelligence(IWACI),2010:91-96.
[11]Gu Yu,Zhou Bo,Zhao Jiashu.PCA-ICA ensembled intrusion detection system by pareto-optimal optimization[J]. Information Technology Journal,2008,7:510-515.
[12]Bazi Y,Melgani F.Toward an optimal SVM classification system forhyperspectralremote sensing images[J].IEEE Transactions on Geoscience and Remote Sensing,2006,44:3374-3385.
[13]Zaina A,Maarof M A,Shamsuddin S M.Feature selection using rough set in intrusion detection[C]//TENCON,2006.
[14]Nizar A H,Dong Z Y,Wang Y.Power utility nontechnical lossanalysiswith extreme learning machine method[J]. IEEE Transactions on Power Systems,2008,23:946-955.
[15]李京華,張聰穎,倪寧.基于參數(shù)優(yōu)化的支持向量機(jī)戰(zhàn)場(chǎng)多目標(biāo)聲識(shí)別[J].探測(cè)與控制學(xué)報(bào),2010,32(1).
支持向量分類機(jī)在入侵檢測(cè)中的應(yīng)用研究
雷向宇,周 萍
LEI Xiangyu,ZHOU Ping
School of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin,Guangxi 541004,China
To enhance the approximation and generalization ability of intrusion detection system,theoretical framework of multiple classifiers is analyzed,and factors such as training data pretreatment,cross-validation time and intrusion detection model accuracy is also taken into consideration.In order to get optimal parameters rapidly,a new approach based on grid search is presented.The KDD dataset is mapped into a high-dimensional feature space via the method for intrusion detection based on support vector machine.Different algorithms are applied to optimize the related parameters for kernel function.By using improved grid search method,the acquired parameter has relatively obvious time superiority.The experimental results prove that the classification accuracy and efficiency are improved.
intrusion detection system;KDD dataset;support vector machine;kernel function;grid search
為解決入侵檢測(cè)系統(tǒng)的泛化能力問(wèn)題,分析了多類分類器的理論框架,并綜合考慮訓(xùn)練集數(shù)據(jù)的預(yù)處理、交叉驗(yàn)證時(shí)間和入侵檢測(cè)模型準(zhǔn)確率三個(gè)因素,提出了一種改進(jìn)的粗細(xì)網(wǎng)格參數(shù)優(yōu)化算法。在基于支持向量機(jī)的入侵檢測(cè)模型中,將KDD數(shù)據(jù)集映射到高維空間,并采用不同的算法對(duì)核函數(shù)相關(guān)參數(shù)進(jìn)行優(yōu)化。實(shí)例仿真計(jì)算表明,通過(guò)改進(jìn)的網(wǎng)格搜索法所獲得的參數(shù)相對(duì)來(lái)說(shuō)有明顯的時(shí)間優(yōu)勢(shì),分類精度和效率得到了提高。
入侵檢測(cè)系統(tǒng);KDD數(shù)據(jù)集;支持向量機(jī);核函數(shù);網(wǎng)格搜索
A
TP393.08
10.3778/j.issn.1002-8331.1110-0055
LEI Xiangyu,ZHOU Ping.Research of support vector machine classifiers for intrusion detection.Computer Engineering and Applications,2013,49(11):88-91.
國(guó)家自然科學(xué)基金(No.60961002)。
雷向宇(1987—),男,工學(xué)碩士,主要研究領(lǐng)域?yàn)槿肭謾z測(cè)、網(wǎng)絡(luò)安全;周萍,女,教授。E-mail:xiangyu155@qq.com
2011-10-08
2011-12-23
1002-8331(2013)11-0088-04
CNKI出版日期:2012-03-08 http://www.cnki.net/kcms/detail/11.2127.TP.20120308.1520.014.html