夏棟梁,劉玉坤,魯書喜
(平頂山學(xué)院 軟件學(xué)院,河南 平頂山 467000)
?
基于蟻群算法和改進(jìn)SSO的混合網(wǎng)絡(luò)入侵檢測方法
夏棟梁,劉玉坤,魯書喜
(平頂山學(xué)院 軟件學(xué)院,河南 平頂山 467000)
摘要:針對一般網(wǎng)絡(luò)入侵檢測方法在不斷增加復(fù)雜攻擊和惡意軟件的網(wǎng)絡(luò)環(huán)境下,難以有效保護(hù)網(wǎng)絡(luò)的問題,提出了一種混合入侵檢測方法。對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理,采用蟻群算法(ant colony algorithm, ACO)進(jìn)行特征選擇,數(shù)據(jù)挖掘,在此過程,為了改善簡化群優(yōu)化(simplified swarm optimization, SSO)分類器性能,提出在SSO中加入一種加權(quán)局部搜索策略,即改進(jìn)的簡化群優(yōu)化(improved simplified optimization optimization, ISSO),這種新局部搜索策略的目的是從由SSO產(chǎn)生當(dāng)前解的鄰域內(nèi)找到更好的解,從而獲得入侵報(bào)告。在KDDCup 99數(shù)據(jù)集上進(jìn)行了混合檢測方法的相關(guān)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,在粒子數(shù)為30,最大代為30時(shí),ISSO就已經(jīng)達(dá)到最好的分類結(jié)果93.5%,相比于其他智能算法具有更少的粒子數(shù)和更小的最大代。此外,還模擬了3種類型的網(wǎng)絡(luò)攻擊DOS,PROB和U2R,結(jié)果表明,大多數(shù)情況下該方法的準(zhǔn)確率都高于其他檢測方法。
關(guān)鍵詞:網(wǎng)絡(luò)入侵;蟻群算法;簡化群優(yōu)化;局部加權(quán);分類器
0引言
在現(xiàn)今信息社會(huì)中,互聯(lián)網(wǎng)安全已成為人們關(guān)注的主要領(lǐng)域。傳統(tǒng)的網(wǎng)絡(luò)入侵預(yù)防,例如防火墻、用戶認(rèn)證、避免程序錯(cuò)誤和數(shù)據(jù)加密難以在不斷增加的復(fù)雜攻擊和惡意軟件前全面保護(hù)網(wǎng)絡(luò)和系統(tǒng)。因此,網(wǎng)絡(luò)入侵檢測方法(network intrusion detection systems,NIDS)[1]作為安全基礎(chǔ)設(shè)施的補(bǔ)充元件是必需和必要的。
基本上,網(wǎng)絡(luò)入侵檢測的問題分為2個(gè)基本類型:基于異常的檢測和基于誤用的檢測(也稱為基于簽名的檢測)?;诋惓5臋z測指的是從正常行為中區(qū)分攻擊,它為沒有任何現(xiàn)有簽名的新型攻擊提供了非常良好的檢測結(jié)果,如統(tǒng)計(jì)學(xué)[2]、機(jī)器學(xué)習(xí)[3]等,早期大多是一些統(tǒng)計(jì)學(xué)的算法,后期機(jī)器學(xué)習(xí)算法被廣泛應(yīng)用。然而,這類算法有較大的誤報(bào)率且很難在高度動(dòng)態(tài)環(huán)境下訓(xùn)練;基于誤用的檢測可以檢測基于公知漏洞和存儲(chǔ)在數(shù)據(jù)庫中入侵的攻擊,它使用先驗(yàn)知識了解已知攻擊,并嘗試匹配當(dāng)前行為與那些攻擊模式,已廣泛地用于解決許多入侵檢測系統(tǒng)(intrusion detection system, IDS)分類問題。這種方法的缺點(diǎn)是新攻擊到來時(shí)它可能無法提醒系統(tǒng)管理員。理想NIDS具有較高的攻擊檢測率且伴隨著較低的誤報(bào)率。因此,良好的精度和較低的誤報(bào)率是網(wǎng)絡(luò)入侵檢測的重要指標(biāo)。
本文提出混合檢測算法蟻群算法-改進(jìn)的簡化群優(yōu)化(ant colony algorithm-improved simplified swarm optimization, ACO-ISSO),采用ACO進(jìn)行重要特征選擇,采用改進(jìn)的簡化群算優(yōu)化(improved simplified optimization optimization, ISSO),即在簡化群優(yōu)化(simplified swarm optimization, SSO)中引入局部搜索策略,用于挖掘。
1相關(guān)研究
到目前為止,已有許多相關(guān)技術(shù)用于解決基于異常網(wǎng)絡(luò)的入侵檢測問題。文獻(xiàn)[4]成功地運(yùn)用粒子群優(yōu)化(particle swarm optimization, PSO)算法進(jìn)行學(xué)習(xí)分類規(guī)則。將“分而治之”模式添加到標(biāo)準(zhǔn)PSO,以逐步學(xué)習(xí)分類規(guī)則集,從完整訓(xùn)練集開始,預(yù)計(jì)通過運(yùn)行一次PSO產(chǎn)生最佳分類器,然后添加到規(guī)則集。分類器覆蓋的數(shù)據(jù)將從訓(xùn)練組中刪除,重復(fù)此過程,直到訓(xùn)練集為空,降低IDS中的誤報(bào)率,但是這種算法一般只能在動(dòng)態(tài)環(huán)境較小時(shí)使用,因?yàn)镻SO在分類時(shí)表現(xiàn)得并不是很穩(wěn)定,而且一次運(yùn)行也較難實(shí)現(xiàn)最佳分類器。
文獻(xiàn)[5]提出一種增量式生長型層自組織映射(growing hierarchical self-organizing map, GHSOM)神經(jīng)網(wǎng)絡(luò)模型用于網(wǎng)絡(luò)入侵檢測,針對傳統(tǒng)的已知類型網(wǎng)絡(luò)攻擊和離線方式學(xué)習(xí)有一定優(yōu)勢,提高了檢測率和準(zhǔn)確率,具有一定的自適應(yīng)性。但對新入侵類型的檢測花費(fèi)代價(jià)非常高,其實(shí),實(shí)踐中大多是已知類型攻擊。文獻(xiàn)[6]也提出類似的算法,利用反向傳播(back propagation, BP)神經(jīng)網(wǎng)絡(luò)的改進(jìn)方法進(jìn)行網(wǎng)絡(luò)入侵檢測,不過都具有類似問題。
包括A-NIDS中的許多應(yīng)用將粗糙集理論(rough set theory, RST)視作特征選擇的最好技術(shù)之一。例如,文獻(xiàn)[7]提出了一種魯棒性模型,即粗糙集分類并行遺傳算法,用它來過濾掉測試特性集中多余和過剩信息,從而顯著減少計(jì)算機(jī)資源,即檢測攻擊所需的內(nèi)存和CPU時(shí)間,排列了5個(gè)最顯著特征,文獻(xiàn)[8-9]通過實(shí)施粗糙集分類并行遺傳編程改進(jìn)了它們的研究,并成功排列出前4種最顯著特征。RST的確是特征選擇的最好技術(shù)之一,然而,由于RST的規(guī)則性程度不高,對異常檢測的漏檢概率依然較大。
最近幾年仿生學(xué)方法已廣泛地在網(wǎng)絡(luò)入侵模式檢測中實(shí)現(xiàn)。例如,文獻(xiàn)[10-11]提出螞蟻礦工的延伸,即螞蟻分類器算法,用于發(fā)現(xiàn)分類規(guī)則。通過調(diào)查螞蟻費(fèi)洛蒙濃度來跟蹤入侵者路徑,以便它可以容易地在傳感器網(wǎng)絡(luò)識別入侵的影響路徑。雖然這類算法能解決防火墻等網(wǎng)絡(luò)中存在的內(nèi)部和外部攻擊問題,但是建模工作量非常大。
本文目的有2個(gè)方面:①使用蟻群算法選擇可以代表網(wǎng)絡(luò)流量模式的最相關(guān)特征;②采用改進(jìn)的簡化優(yōu)化群算法ISSO最大限度地提高分類準(zhǔn)確度。ISSO中新的局部搜索策略可以提高SSO的性能,通過從SSO產(chǎn)生當(dāng)前解鄰域?qū)ふ腋玫慕鈦硗诰蚧诋惓5木W(wǎng)絡(luò)入侵模式。本文算法的整體結(jié)構(gòu)如圖1所示。
圖1 提出的入侵檢測方案的整體結(jié)構(gòu)Fig.1 Overall structure of the proposedintrusion detection scheme
2利用蟻群算法進(jìn)行特征選擇
蟻群優(yōu)化算法是一種集體智能算法,在求解TSP、車間作業(yè)調(diào)度、網(wǎng)絡(luò)路由服務(wù)質(zhì)量(quality of service, QoS)、背包問題等方面都有廣泛的應(yīng)用,研究表明,該算法具有較好的效果[11-12]。在進(jìn)行網(wǎng)絡(luò)入侵檢測特征選擇時(shí),需要將網(wǎng)絡(luò)入侵檢測特征作為螞蟻要訪問的一個(gè)地點(diǎn),從而將特征優(yōu)化問題轉(zhuǎn)化為路徑搜索問題。
2.1蟻群的狀態(tài)轉(zhuǎn)移概率與搜索
特征是每個(gè)螞蟻都必須經(jīng)過的節(jié)點(diǎn),每完成一次循環(huán),每只螞蟻遍歷全部特征。每個(gè)特征有一個(gè)選擇概率,螞蟻每經(jīng)過一個(gè)特征節(jié)點(diǎn),根據(jù)特征選擇概率,對特征進(jìn)行選取,特征的選擇概率越大,被選擇的可能性就越大。螞蟻從特征i轉(zhuǎn)移j的概率為
(1)
(1)式中:ηij為啟發(fā)因子,取決于入侵檢測率,ηij越大,螞蟻轉(zhuǎn)移到特征j的概率越大;τij(t)為時(shí)刻t從特征i到特征j的信息素;tabuk為螞蟻k的禁忌表。
在狀態(tài)轉(zhuǎn)移概率中,α表示信息素的權(quán)重;β表示啟發(fā)因子的權(quán)重,本文的α為一常量,β值由(2)式?jīng)Q定。
(2)
(2)式中:n為迭代次數(shù);β0為啟發(fā)因子的權(quán)值初值;Nmax為最大循環(huán)次數(shù)。
設(shè)螞蟻經(jīng)過k個(gè)重要特征搜索,得到了k個(gè)重要特征,為了避免一些與網(wǎng)絡(luò)入侵檢測無關(guān)特征或者冗余特征混淆,需要在k個(gè)特征中搜索最優(yōu)特征子集,記ui表示某一個(gè)特征子集,uj表示最優(yōu)子集,則第j個(gè)螞蟻Sj的適應(yīng)度函數(shù)值F(Sj)滿足
(3)
(3)式中,Si=Sm∪ui∪{fn},Sm表示已經(jīng)經(jīng)過m只螞蟻,{fn}表示迭代n次剩余的特征,n為迭代次數(shù)。
2.2更新信息素與終止條件
蟻群算法主要通過信息來完成反饋機(jī)制,信息素更新機(jī)制有2類:局部信息和整體信息。整體信息可以加快算法搜索速度,獲得全局最優(yōu)特征的概率增大,因此,每完成一輪搜索后,各條路徑上信息濃度需要更新,其表達(dá)式為
(4)
(4)式中:n為迭代輪數(shù);ρ為信息素殘留因子;k為螞蟻編號; F(sk)為適應(yīng)度值;Q為信息素增長濃度。
從信息素更新規(guī)則可知,適應(yīng)度函數(shù)越小的特征子集,該路徑上信息素濃度越大,則就會(huì)吸引更多的螞蟻向該路徑搜索。為強(qiáng)化最優(yōu)路徑影響,對信息素進(jìn)行額外的附加激勵(lì),即有
(5)
(5)式中,F(xiàn)(sopt)為本輪最優(yōu)特征子集的適應(yīng)度函數(shù)。
ρ對蟻群優(yōu)化算法的收斂性影響非常明顯,ρ越大,收斂速度慢,但不易陷入局部最優(yōu);ρ越小,算法收斂速度快但易陷入局部最優(yōu)。本研究根據(jù)參考文獻(xiàn)[10],ρ值設(shè)定為
(6)
(6)式中,ρ0為信息殘留因子初始值。
本文所使用的適應(yīng)度函數(shù)與文獻(xiàn)[13]相同,具體如下
(7)
(7)式中:γR(D)是相對于維度D的條件屬性集R的分類質(zhì)量;|R|表示位置的“1”數(shù)或選擇的特征子集的長度;|C|是特征總數(shù);α和β是對應(yīng)于分類質(zhì)量重要性和子集長度的2個(gè)參數(shù),α∈[0,1]且β=(1-α)。隨機(jī)數(shù)R與ISSO的3個(gè)預(yù)定常數(shù)關(guān)聯(lián)。
本文的蟻群搜索的終止條件為連續(xù)3次增加特征,F(xiàn)(s)沒有發(fā)生太大改變,表示本輪搜索終止。
3利用ISSO的網(wǎng)絡(luò)入侵檢測方法
3.1簡化粒子群優(yōu)化
介紹一種新的數(shù)據(jù)挖掘模型,即簡化群優(yōu)化(simplifiedswarmoptimization,SSO)[11]。SSO是基于PSO開發(fā)出來,其中,每個(gè)粒子編碼為一個(gè)正整數(shù)。SSO不同于一般組合式方法或者PSO。本文中,SSO算法用于解決分類問題,可以應(yīng)付同時(shí)包含離散和連續(xù)變量的數(shù)據(jù)集,采用于2009年開發(fā)的SSO[14]。首先,確定群族大小、最大代數(shù)和3個(gè)預(yù)定義參數(shù)。每一代中,由其pbest值保持或更新、或由gbest值更新或由根據(jù)(1)式描述的程序產(chǎn)生的新隨機(jī)數(shù)替換每一維中粒子的位置值, 該等式中,i=1,2,…,m,其中,m是群族,Xi=(xi1,xi2,…,xid),其中,xid是第i個(gè)粒子相對于特征空間第d維(d=1,2,3,…,D)的位置值,Cw,Cp和Cg是3個(gè)預(yù)定義的正常量,Cw (8) SSO中粒子位置值更新策略如下。 步驟1初始化群大小(m)、最大代(maxGen)、最大適應(yīng)度值(maxFit),Cw,Cp和Cg。 步驟2每次迭代中,為每一維隨機(jī)生成0到1范圍內(nèi)的隨機(jī)數(shù)R。 步驟3執(zhí)行比較策略,其中: if(0≤R Elseif(Cw≤R Elseif(Cp≤R Elseif(Cg≤R≤1),then{xid=new(xid)}。 步驟4重復(fù)該過程,直到滿足終止條件。 3.2改進(jìn)的簡化粒子群優(yōu)化 為了提高算法的性能,本文提出并入局部搜索策略,以執(zhí)行每一代獲得的全局最優(yōu)解。其中,SSO進(jìn)行粗略搜索,這樣可能會(huì)產(chǎn)生不成熟結(jié)果導(dǎo)致有時(shí)提供的解不能令人滿意。由于這個(gè)原因,需要嵌入局部搜索策略到SSO中,以便使SSO產(chǎn)生更滿意的解。局部搜索可以從一個(gè)解移動(dòng)到另一個(gè)解,探索解控制直到找到最優(yōu)解。它從當(dāng)前解開始,然后從其鄰域中搜索更優(yōu)解,重復(fù)執(zhí)行新解的鄰域搜索,直到滿足局部最優(yōu)解時(shí)停止。在本文的算法中,局部搜索的目的是找出粒子的新pbest或當(dāng)前粒子本身的新gbest,而不在任意代執(zhí)行。本文提出ISSO,合并了新加權(quán)局部搜索方法,加權(quán)局部搜索應(yīng)用于SSO規(guī)則挖掘的加權(quán)3個(gè)預(yù)定常數(shù)是Cw,Cp和Cg。 (9) 然后根據(jù)(9)式使用加權(quán)預(yù)定變量更新粒子。為了獲得新pbest和gbest,重新評估粒子的適應(yīng)值。本文提出的加權(quán)局部搜索算法的步驟如下。 步驟1預(yù)先確定局部搜索時(shí)間(T)和局部搜索權(quán)重(ω)。 步驟2選擇目標(biāo)粒子(Pt)。 在此階段,gbest將是待運(yùn)行T次局部搜索的第一目標(biāo)粒子,之后,依次選擇其他pbest作為目標(biāo)粒子,運(yùn)行T次局部搜索。那么局部搜索pbest期間一旦獲得gbest,加權(quán)局部搜索將停止,其他pbest不需要再運(yùn)行局部搜索。 步驟3獲取新的3個(gè)加權(quán)值:(ω·Cw),(ω·Cp)和(ω·Cg)。 步驟4根據(jù)(9)式通過新加權(quán)值(ω·Cw),(ω·Cp)和(ω·Cg)更新粒子位置。 步驟5重新評估目標(biāo)粒子的適應(yīng)值。 步驟6檢查適應(yīng)值是否比目標(biāo)粒子當(dāng)前pbest或gbest更好。如果粒子已經(jīng)得到了新pbest,目標(biāo)粒子局部搜索的迭代將重置為零,重新運(yùn)行局部搜索,直到局部搜索了T次沒有找到更多的pbest。如果粒子已經(jīng)得到了新gbest,局部搜索過程將停止。然而,gbest搜索會(huì)繼續(xù)運(yùn)行,即使已獲得新gbest。 3.3規(guī)則挖掘編碼 (1) 外圍地區(qū)車站差異分析:從天津的城市開發(fā)情況來看,居住人口仍然集中在城市中心區(qū),外圍車站所處的快速環(huán)路以外區(qū)域的土地利用強(qiáng)度不高、人口較為分散,因此按照600 m半徑計(jì)算的各類指標(biāo)均較少。而且城市外圍地區(qū)車站的接駁條件較好,實(shí)際服務(wù)范圍應(yīng)大于600 m,車站越靠近外環(huán)線,服務(wù)范圍就越大,因此測算的評價(jià)指標(biāo)低于客流表現(xiàn)。 在數(shù)據(jù)挖掘分類任務(wù)的環(huán)境下,以IF-THEN預(yù)測規(guī)則形式表示知識,其具有高級符號知識表示的優(yōu)點(diǎn),有利于找出具有高適應(yīng)度值的規(guī)則。圖2表示基于(1)式的粒子位置規(guī)則挖掘的編碼形式。 圖2 規(guī)則挖掘編碼Fig.2 Rules of mining encoding 每個(gè)粒子包含N維(屬性),最后一個(gè)單元為預(yù)測類,即類X。每個(gè)屬性的閾值設(shè)置為給定數(shù)據(jù)集的最低數(shù)據(jù)值到最高數(shù)據(jù)值,前者稱為下界,后者稱為上界。由PSO和SSO產(chǎn)生的IF-THEN規(guī)則一般形式可以在以下所有維度執(zhí)行。 IF(LowerBound≤xij≤UpperBound)istrue,THEN predictionisClassX 在ISSO算法下,將不會(huì)更新下界和上界的值。然而,在PSO規(guī)則下,將根據(jù)運(yùn)行該迭代后,由速度更新的新位置來更新下界和上界的值。此外,分別使用(10)式和(11)式獲得下界和上界值。 LowerBound=xij-rand()·range(Xmax-Xmin) (10) UpperBound=xij-rand()·range(Xmax-Xmin) (11) (10)—(11)式中,Xi=(xi1,xi2,…,xij)表示每個(gè)維度中第n個(gè)對應(yīng)屬性的第i個(gè)種子值;rand()是0和1范圍內(nèi)的隨機(jī)數(shù),range(Xmax-Xmin)是每一個(gè)屬性中數(shù)據(jù)源的范圍值,ISSO中下界和上界值的更新策略根據(jù)如下比較策略進(jìn)行。 (xid)=xid}; Elseif(Cw≤R UpperBound(xid)=UpperBound(pid)}; Elseif(Cp≤R UpperBound(xid)=UpperBound(gid)}; Elseif(Cg≤R≤1),then{LowerBound=xid-rand()*range (Xmax-Xmin);UpperBound=xid+rand()*range(Xmax-Xmin)}; 3.4規(guī)則評估 最常用的評估指標(biāo)是分類精度,為了評估規(guī)則的好壞,在解空間計(jì)算規(guī)則的質(zhì)量(適應(yīng)度函數(shù)),并返回可表示相關(guān)位置值的單一數(shù)。數(shù)據(jù)挖掘中,數(shù)據(jù)將分成2個(gè)部分:訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),訓(xùn)練數(shù)據(jù)用來根據(jù)目標(biāo)問題中給定的規(guī)則產(chǎn)生模型,接下來該模型將用于測試數(shù)據(jù),以獲得驗(yàn)證精度。規(guī)則在測試階段執(zhí)行的好壞取決于分類精度測量的可靠性。一般情況下,標(biāo)準(zhǔn)分類準(zhǔn)確率可以寫為 Standard classification accuracy rate= (12) 然而,大多數(shù)非線性分類問題的類分布極不平衡。(12)式不能有效地測量模型的準(zhǔn)確率。因此,本文采用文獻(xiàn)[15]的評估指標(biāo),具體形式為 (13) (13)式中:①真陽性(truepositive,TP):擁有由規(guī)則預(yù)測的類的規(guī)則覆蓋實(shí)例數(shù);②假陽性(falsepositive,FP):擁有不同于由規(guī)則預(yù)測類的規(guī)則覆蓋實(shí)例數(shù);③真陰性(truenegative,TN):擁有不同于由規(guī)則預(yù)測類的規(guī)則不覆蓋實(shí)例數(shù);④假陰性(falsenegative,FN):擁有由規(guī)則預(yù)測類的規(guī)則不覆蓋實(shí)例數(shù)。 分類問題中,在每個(gè)優(yōu)化過程中搜索[0,1]個(gè)體的最高適應(yīng)值,這對獲得該規(guī)則的最佳質(zhì)量非常重要。 4實(shí)驗(yàn)結(jié)果與分析 4.1數(shù)據(jù)集及其參數(shù)說明 實(shí)驗(yàn)從KDDCup99隨機(jī)選擇10%作為標(biāo)準(zhǔn)數(shù)據(jù)集,KDDCup99提取自1998DARPA入侵檢測評價(jià)程序。這個(gè)數(shù)據(jù)庫包括軍用網(wǎng)絡(luò)環(huán)境中仿真的各種入侵,常用作評價(jià)入侵檢測技術(shù)的基準(zhǔn)。該數(shù)據(jù)集有41個(gè)特征,每個(gè)記錄加一個(gè)包含23個(gè)攻擊的類標(biāo)簽,其已經(jīng)標(biāo)記為正?;蚬?,此數(shù)據(jù)集所有特征標(biāo)記從A到AO。實(shí)驗(yàn)涉及3個(gè)主要任務(wù),第一階段,進(jìn)行預(yù)處理任務(wù),到達(dá)數(shù)據(jù)清洗目的,預(yù)處理任務(wù)中,識別屬性和屬性值;第二階段是降維;最后階段是智能分類,選擇最顯著特征,檢測入侵行為。在2.95GHzInteli3酷睿雙核處理器和4GByteRAM的Windows7系統(tǒng)上運(yùn)行此實(shí)驗(yàn)。實(shí)驗(yàn)中假定分類質(zhì)量(α)比子集長度(β)更重要,考慮到10%的數(shù)據(jù)用于測試,而其余90%用于訓(xùn)練。因此,設(shè)置α=0.9,β=0.1。設(shè)置粒子數(shù)=15,最大代=100,Cw=0.1,Cp=0.4,Cg=0.9。 主要討論在數(shù)據(jù)分類中的ISSO,SSO和PSO中生成最優(yōu)解的參數(shù)設(shè)置。因此,除了m,maxGen,其余參數(shù)采用文獻(xiàn)[14]中的設(shè)置。算法涉及的參數(shù)如表1所示。 表1 分類器的參數(shù)設(shè)置 4.2數(shù)據(jù)分類比較 提出的ACO-ISSO用作A-NIDS中的入侵檢測,其核心是ISSO的分類作用。因此,本文比較ISSO,SSO和PSO,使用10倍交叉驗(yàn)證過程評估分類性能。 首先,針對每個(gè)實(shí)驗(yàn),運(yùn)行具有10-50的5種不同粒子大小(10,20,30,40,50)和10-40的不同代數(shù)的仿真。目標(biāo)是找到ISSO,SSO和PSO能產(chǎn)生最高分類精度的最佳種群大小和代數(shù)。分類器中所有可能的m和maxGen對的整體性能列于表2中,具有粗體數(shù)字的陰影單元表示各分類器達(dá)到的最高精度,它清楚地表明,與原始SSO和PSO相比,ISSO傾向于使用較少粒子數(shù),且最大代數(shù)較低(即m=30和maxGen=30),因此獲得結(jié)果更好(93.5%)。同時(shí),原始SSO(91.9%)和PSO(91.6%)需要使用更多粒子和代數(shù), 分別為m=40,maxGen=40和M=50,maxGen=40。另一方面, ISSO精度最高為93.6%,其中,m=40,50和maxGen=40。然而,在考慮客觀發(fā)現(xiàn)最優(yōu)種群大小和代數(shù)的實(shí)驗(yàn)中,0.1%的差異不顯著。 表2 ISSO,SSO和PSO在不同m和maxGen設(shè)置下的分類精度(%) 具有不同粒子數(shù)的ISSO算法最佳性能的比較如圖3所示。從圖3中可以看到,ISSO和SSO的精度隨著粒子數(shù)的增加而逐漸增加。其中,ISSO不需要使用速度,只需要根據(jù)一些能改善性能的簡單條件更新粒子位置。此外,圖3中,ISSO表現(xiàn)出了在所有最高代數(shù)下以少量粒子達(dá)到更高分類結(jié)果的潛力,此外,30個(gè)粒子以上,精度趨于一致,如圖3a和圖3c所示,同樣的,40個(gè)粒子以上如圖3d所示。 圖3 不同的最大迭代次數(shù)與不同粒子數(shù)的分類性能結(jié)果Fig.3 Classification performance results in case of different maximum number of iterations and different particle numbers 同時(shí),SSO和PSO表現(xiàn)出同樣的趨勢,使用的粒子越多,獲得的精度更高。除了PSO,當(dāng)最大粒子數(shù)設(shè)定為30時(shí)(見圖3c),SSO在40個(gè)粒子之后獲得最佳性能。而對于PSO以50個(gè)粒子實(shí)現(xiàn)最優(yōu)解,獲得最佳性能。從以上數(shù)據(jù)可以得出結(jié)論,較少粒子數(shù),30-40個(gè)粒子,對于ISSO來說足以達(dá)到高分類精度。 表3表示訓(xùn)練平均結(jié)果和取自一次最佳運(yùn)行10倍交叉驗(yàn)證[16]的平均驗(yàn)證結(jié)果,其中,TA代表訓(xùn)練精度(training accuracy, TA), VA代表驗(yàn)證精度(verifying accuracy, VA)。表3中ISSO較小標(biāo)準(zhǔn)差意味著本文提出的算法具有魯棒性,不管運(yùn)行幾次,分類精度變化不脫離其平均性能。 表3 10倍交叉驗(yàn)證的訓(xùn)練平均和驗(yàn)證平均 4.3入侵檢測準(zhǔn)確率比較 為了更好地體現(xiàn)本文所提模型的優(yōu)越性,將本文所提模型與其他幾種較為先進(jìn)的方法在各個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行了比較,包括文獻(xiàn)[5]提出的增量式GHSOM算法。文獻(xiàn)[7]提出的出粗糙集算法RST,文獻(xiàn)[10]提出的基于蟻群決策森林(ant colony decision forest, ACDF)。表4為本文算法訓(xùn)練集與測試集的實(shí)驗(yàn)結(jié)果,訓(xùn)練階段和測試階段分別涉及大約25 000和27 000條數(shù)據(jù)。測試3種網(wǎng)絡(luò)攻擊類型DOS,PROB和U2R。 表5為各方法的網(wǎng)絡(luò)入侵檢測性能比較。從表5可以發(fā)現(xiàn),ACO-ISSO對于所有種類的入侵檢測均表現(xiàn)出良好的性能。在DOS入侵類型中,實(shí)驗(yàn)準(zhǔn)確率達(dá)到93.3%,比所有其他方法中都要高;在PROBE類型中準(zhǔn)確率高達(dá)91.7%,雖然較ACDF方法準(zhǔn)確率偏低,但比其它各方法的準(zhǔn)確率都要高;對于U2R類型,與其他所有方法相比,準(zhǔn)確率最高,達(dá)到93.1%。由此可見,相比其他幾種最先進(jìn)的方法,本文的ACO-ISSO方法對所有入侵類型的檢測表現(xiàn)出了良好的性能,這應(yīng)該歸功于ISSO可以從SSO產(chǎn)生的當(dāng)前解的鄰域內(nèi)找到更好的解。 表4 本文算法訓(xùn)練集與測試集的實(shí)驗(yàn)結(jié)果 表5 各方法的網(wǎng)絡(luò)入侵檢測性能比較 5結(jié)論 本文提出了一種新的混合入侵檢測系統(tǒng)ACO-ISSO,使用蟻群算法ACO進(jìn)行特征選擇,使用具有加權(quán)局部搜索策略的ISSO進(jìn)行數(shù)據(jù)挖掘分類。通過實(shí)驗(yàn)可知,ACO-ISSO可提高基于決策規(guī)則生成的異常檢測技術(shù)的性能,在分類精度和穩(wěn)定性方面均有較大提高。 未來將研究規(guī)則評估和規(guī)則修剪的多個(gè)方面,如規(guī)則數(shù)、緊湊性和冗余度,從而改進(jìn)提出的分類器的性能。 參考文獻(xiàn): [1]魏旻, 王一帆, 李玉,等. 基于WIA-PA網(wǎng)絡(luò)的周界入侵檢測系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2013, 25(2): 148-153. WEI Min, WANG Yifan, LI Yu, et al. Design and Implementation of Perimeter Intrusion Detection System Based on WIA-PA Industrial Wireless Network[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science Edition, 2013, 25(2): 148-153. [2]OMER H A M. 移動(dòng)自組織網(wǎng)中基于統(tǒng)計(jì)異常的入侵檢測和響應(yīng)系統(tǒng)研究[D]. 合肥:中國科學(xué)技術(shù)大學(xué), 合肥, 2014. OMER H A M. Statistical Anomaly-based Intrusion Detection and Reaction System for Mobile Ad Hoc Networks[D]. Hefei: University of Science and Technology of China, Hefei, 2014. [3]賈偉峰. 網(wǎng)絡(luò)入侵檢測中機(jī)器學(xué)習(xí)方法的應(yīng)用研究[D]. 成都:電子科技大學(xué), 成都, 2009.JIA Weifeng.Application of Machine Learning Method in Network Intrusion Detection[D].Chendu:University of Electronic Science and Technology of China,Chengdu,2009. [4]MALIK A J, SHAHZAD W, KHAN F A. Network intrusion detection using hybrid binary PSO and random forests algorithm[J]. Security and Communication Networks, 2012,27(11):1024-1032. [5]楊雅輝, 黃海珍, 沈晴霓,等. 基于增量式GHSOM神經(jīng)網(wǎng)絡(luò)模型的入侵檢測研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 27(5):1204-1211. YANG Yahui, HUANG Haizhen, SHEN Qingni, et al. Research of Intelligent Intrusion Detection Based on Incremental GHSOM Neural Network Model[J]. Chinese Journal of Computers, 2014, 27(5): 1204-1211. [6]劉曉. 基于BP神經(jīng)網(wǎng)絡(luò)的智能入侵檢測研究[D]. 重慶:重慶大學(xué), 2010. LIU Xiao. Research of Intelligent Intrusion Detection Based on BP Neural Network[D]. Chongqing: Chongqing University, 2010. [7]WA’EL M M, AGIZA H N, Radwan E. Intrusion detection using rough sets based parallel genetic algorithm hybrid model[C]//Proceedings of the World Congress on Engineering and Computer Science. San Francisco, USA: IEEE,2009: 20-26. [8]QIAN Y, ZHANG H, SANG Y, et al. Multigranulation decision-theoretic rough sets[J]. International Journal of Approximate Reasoning, 2014, 55(1): 225-237. [9]吳迪, 張亞平, 郭禾. 一種基于粗糙集理論和BP神經(jīng)網(wǎng)絡(luò)的入侵檢測新方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2006, 28(4): 437-441. WU Di, ZHANG Yaping, GUO He. A New Intrusion Detection Method Based on Rough Set Theory and BP Neural Network[J]. Journal of Computer Research and Development, 2006, 28(4): 437-441. [10] KOZAK J, BORYCZKA U. Multiple Boosting in the Ant Colony Decision Forest meta-classifier[J]. Knowledge-Based Systems, 2015, 25(2): 141-151. [11] CHUNG Y Y, WAHID N. A hybrid network intrusion detection system using simplified swarm optimization(SSO)[J].Applied Soft Computing,2012,12(9):3014-3022. [12] 李振剛, 甘泉. 改進(jìn)蟻群算法優(yōu)化SVM參數(shù)的網(wǎng)絡(luò)入侵檢測模型研究[J]. 重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版, 2014, 26(6): 785-789 LI Zhengang, GANG Quan. Network Intrusion Detection Model Based on MACO-SVM[J].Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition, 2014, 26(6): 785-789. [13] 江峰, 王春平, 曾惠芬. 基于相對決策熵的決策樹算法及其在入侵檢測中的應(yīng)用[J]. 計(jì)算機(jī)科學(xué), 2012, 39(4): 223-226. JIANG Feng, WANG Chunping, ZENG Huifen. Relative Decision Entropy Based Decision Tree Algorithm and its Application in Intrusion Detection[J]. Computer Science, 2012, 39(4): 223-226. [14] YEH W, CHANG W, CHUNG Y Y. A new hybrid approach for mining breast cancer pattern using discrete particle swarm optimization and statistical method[J]. Expert Systems with Applications,2009,36(4):8204-8211. [15] BAE C, YEH W, CHUNG Y Y, et al. Feature selection with Intelligent Dynamic Swarm and Rough Set[J]. Expert Systems with Applications,2010,37(10):7026-7032. [16] 劉學(xué)藝, 李平, 郜傳厚. 極限學(xué)習(xí)機(jī)的快速留一交叉驗(yàn)證算法[J]. 上海交通大學(xué)學(xué)報(bào):自然科學(xué)版, 2011, 24 (8): 1140-1145. LIU Xueyi, LI Ping, GAO Chuanhou. Fast Leave-One-Out Cross-Validation Algorithm for Extreme Learning Machine[J]. Journal of Shanghai Jiaotong University: Natural Science, 2011, 24(8): 1140-1145. Hybrid network intrusion detection method based on ant colony algorithm and improved simplified swarm optimization XIA Dongliang, LIU Yukun, LU Shuxi (School of Software, Pingdingshan Univrsity, Pingdingshan 467000, P.R. China) Abstract:As the problem that it is hard to fully protect the network for traditional network intrusion detection method under the condition of increasing complexity and malice software, a hybrid intrusion detection method is proposed. Firstly, the pretreatment is on network data, and ant colony algorithm (ACO) is used to select features. Then, the data mining starts. In order to improve the performance of the classifier simplified swarm optimization (SSO) in the process of data mining, a weighted local search strategy is presented in SSO method, which is called improved simplified swarm optimization(ISSO) in this paper. And the purpose of presenting the new local search strategy is to generate a better solution from the neighborhood of the current solutions. Finally, the invasion report is given. Experiments of the hybrid detection method are tested on KDDCup 99 data sets. The experimental results show that the best classification result of ISSO can be 93.5% in the case of 30 particles and 30 max generations. Compared with other intelligent algorithms, the number of particles and max generations are much fewer. In addition, three kinds of network attacks DOS, PROB and U2R are simulated. The experimental results show that the exact rate is higher than that of other detection method in most cases. Keywords:network intrusion; ant colony algorithm; simplified swarm optimization; weighted local; classifier DOI:10.3979/j.issn.1673-825X.2016.03.021 收稿日期:2015-06-03 修訂日期:2016-03-07通訊作者:夏棟梁xiadl_email@126.com 基金項(xiàng)目:河南省教育廳重點(diǎn)科研項(xiàng)目(15A520091) Foundation Item:The Key Scientific Research Project from Education Department of Henan Province (15A520091) 中圖分類號:TP393.08 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-825X(2016)03-0406-08 作者簡介: 夏棟梁(1981-),男,河南鄢陵人,講師,碩士,研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)安全、云計(jì)算等。E-mail: xiadl_email@126.com。 劉玉坤(1978-),男,河南通許人,講師,碩士,研究領(lǐng)域?yàn)樾畔踩?、云?jì)算等。 魯書喜(1969-),男,河南鎮(zhèn)平人,教授,碩士,研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)安全、流媒體技術(shù)等。 (編輯:劉勇)