潘大勝
摘 要: 為了有效解決當(dāng)前網(wǎng)絡(luò)入侵檢測算法存在的缺陷,提高網(wǎng)絡(luò)的安全性,提出基于模糊關(guān)聯(lián)規(guī)則挖掘的網(wǎng)絡(luò)入侵檢測算法。首先收集網(wǎng)絡(luò)數(shù)據(jù),提取網(wǎng)絡(luò)入侵行為的特征;然后采用模糊關(guān)聯(lián)規(guī)則算法對入侵行為特征進(jìn)行挖掘,選擇入侵行為最有效的特征,減少特征之間的關(guān)聯(lián)度;最后支持向量機(jī)根據(jù)“一對多”的思想建立網(wǎng)絡(luò)入侵檢測的分類器,以KDD CUP數(shù)據(jù)為例對網(wǎng)絡(luò)入侵檢測性能進(jìn)行分析。結(jié)果表明,該算法的網(wǎng)絡(luò)入侵檢測正確率超過了95%,檢測結(jié)果要明顯好于其他檢測算法,易實(shí)現(xiàn),可以用于大規(guī)模網(wǎng)絡(luò)的在線入侵檢測分析。
關(guān)鍵詞: 網(wǎng)絡(luò)安全; 入侵檢測; 關(guān)聯(lián)規(guī)則; 數(shù)據(jù)挖掘
中圖分類號: TN915.08?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)09?0086?03
Abstract: In order to solve the shortcomings existing in the current network intrusion detection algorithm effectively, and improve the network security, a network intrusion detection algorithm based on fuzzy association rules mining is proposed. The network data is collected to extract the features of the network intrusion behavior. The fuzzy association rules algorithm is used to mine the intrusion behavior features, select the most effective feature of intrusion behavior, and reduce the correlation among the features. The support vector machine is used to establish the classifier of the network intrusion detection according to the thought of "one?to?many". The KDD CUP data is taken as an instance to analyze the performance of network intrusion detection. The results show that the network intrusion detection accuracy of this algorithm is higher than 95%, its detection result is obviously better than that of other detection algorithms, the algorithm is simple to implement, and can be used to the online intrusion detection analysis of the large?scale network.
Keywords: network security; intrusion detection; association rule; data mining
0 引 言
隨著網(wǎng)絡(luò)技術(shù)的不斷普及以及應(yīng)用的不斷深入,網(wǎng)絡(luò)安全事件發(fā)生的概率日益增加,網(wǎng)絡(luò)安全問題成為困擾人們生活和工作的一個(gè)難題[1?2]。為了解決網(wǎng)絡(luò)入侵帶來的安全問題,最初有學(xué)者采用網(wǎng)絡(luò)加密、水印技術(shù)、殺毒軟件等措施保證網(wǎng)絡(luò)的正常工作,但它們只能對非法網(wǎng)絡(luò)行為進(jìn)行主動防范,當(dāng)入侵行為發(fā)生變化時(shí),它們就無能為力,缺陷十分明顯,實(shí)際應(yīng)用價(jià)值低[3?5]。在該背景下,入侵檢測應(yīng)運(yùn)而生,其可以對網(wǎng)絡(luò)的歷史數(shù)據(jù)以及當(dāng)前數(shù)據(jù)進(jìn)行對比和分析,發(fā)現(xiàn)其中的非法行為,并進(jìn)行實(shí)時(shí)攔截,成為當(dāng)前一個(gè)重要研究課題[6]。
為了防止非法用戶進(jìn)入網(wǎng)絡(luò)系統(tǒng),研究人員設(shè)計(jì)了許多種類型的網(wǎng)絡(luò)入侵檢測算法,在一定程度上保護(hù)了網(wǎng)絡(luò)的安全,使人們能夠正常、放心的工作和學(xué)習(xí)[7]。在網(wǎng)絡(luò)入侵檢測過程中,要收集數(shù)據(jù)和提取特征,由于網(wǎng)絡(luò)數(shù)據(jù)增長的速度非???,使得特征之間的重復(fù)十分嚴(yán)重,影響入侵的檢測效果,網(wǎng)絡(luò)入侵的實(shí)時(shí)性也相當(dāng)差,因此需要對特征之間的關(guān)聯(lián)進(jìn)行有效挖掘,分析特征之間的關(guān)系,但傳統(tǒng)挖掘算法很難準(zhǔn)確找到特征之間的聯(lián)系,不適合于網(wǎng)絡(luò)入侵檢測的研究[8]。模糊關(guān)聯(lián)規(guī)則算法通過引入模糊理論建立入侵檢測行為規(guī)則,有效提高了特征之間的關(guān)聯(lián),具有較強(qiáng)的適應(yīng)性,為網(wǎng)絡(luò)入侵檢測特征分析提供了一種新的研究工具[9]。在網(wǎng)絡(luò)入侵過程中,還需要設(shè)計(jì)入侵行為的分類器,當(dāng)前主要基于支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等[10?11]進(jìn)行設(shè)計(jì),神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)十分復(fù)雜,尤其當(dāng)特征的數(shù)量大時(shí),易出現(xiàn)“維數(shù)災(zāi)”等難題,入侵檢測結(jié)果變得很差,而且檢索結(jié)果不可靠;支持向量機(jī)可以較好地克服神經(jīng)網(wǎng)絡(luò)的不足,入侵行為檢測效果明顯增強(qiáng),但檢測效率低,這是因?yàn)樘卣魈?,入侵行為分類過程太復(fù)雜[12]。
為了提高網(wǎng)絡(luò)的安全性,提出基于模糊關(guān)聯(lián)規(guī)則挖掘的網(wǎng)絡(luò)入侵檢測算法。首先提取網(wǎng)絡(luò)入侵行為的特征,并采用模糊關(guān)聯(lián)規(guī)則算法對特征進(jìn)行挖掘,減少特征之間的關(guān)聯(lián)度,然后用支持向量機(jī)建立網(wǎng)絡(luò)入侵檢測的分類器,KDD CUP數(shù)據(jù)的測試結(jié)果表明,本文算法的網(wǎng)絡(luò)入侵檢測結(jié)果要明顯好于其他檢測算法,能夠滿足大規(guī)模網(wǎng)絡(luò)的在線入侵檢測分析。
1 網(wǎng)絡(luò)入侵檢測的基本原理
在網(wǎng)絡(luò)入檢測系統(tǒng)中,包括硬件系統(tǒng)和軟件系統(tǒng)兩部分。其中軟件系統(tǒng)是網(wǎng)絡(luò)入侵檢測的重點(diǎn),直接決定了網(wǎng)絡(luò)系統(tǒng)的工作性,而軟件系統(tǒng)中網(wǎng)絡(luò)入侵檢測算法最為關(guān)鍵,網(wǎng)絡(luò)入侵檢測算法包括數(shù)據(jù)采集、特征提取、入侵分類、輸出入侵檢測結(jié)果,并根據(jù)入侵檢測采取相應(yīng)的措施,其工作原理如圖1所示。
2 模糊關(guān)聯(lián)規(guī)則和支持向量機(jī)
2.1 模糊關(guān)聯(lián)規(guī)則
由于傳統(tǒng)挖掘算法很難對數(shù)據(jù)進(jìn)行有效分析,無法有效找出數(shù)據(jù)之間的關(guān)聯(lián),因此普遍存在檢測正確率低等不足。模糊關(guān)聯(lián)規(guī)則挖掘技術(shù)能夠從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,找出一些對問題求解結(jié)果有重要貢獻(xiàn)的數(shù)據(jù),為此,本文將其引入到網(wǎng)絡(luò)入侵檢測的特征分析中,提取重要的入侵行為特征,以獲得更好的入侵檢測結(jié)果。模糊關(guān)聯(lián)規(guī)則挖掘首先引入模糊理論對入侵檢測數(shù)據(jù)的特征進(jìn)行處理,然后給每個(gè)特征賦一個(gè)模糊值,并根據(jù)模糊隸屬度函數(shù)得到每一個(gè)特征的模糊隸屬值,工作流程如圖2所示。
模糊關(guān)聯(lián)規(guī)則算法的網(wǎng)絡(luò)入侵檢測數(shù)據(jù)挖掘過程如下:
Step1:根據(jù)相應(yīng)研究以及有關(guān)專家設(shè)置最小置信度和最小支持度
Step2:計(jì)算網(wǎng)絡(luò)入侵檢測數(shù)據(jù)集特征的模糊隸屬度參數(shù)值。
Step3:構(gòu)建模糊隸屬度函數(shù),并根據(jù)模糊隸屬度函數(shù)得到相應(yīng)的隸屬度。
Step4:估計(jì)各模糊屬性的支持度,得到頻繁1?項(xiàng)目集
Step5:根據(jù)生成項(xiàng)目集從而得到候選項(xiàng)目集根據(jù)得到頻繁集
Step6:若為空,增加否則進(jìn)入下一步。
Step7:根據(jù)最大的得到置信度值,得到網(wǎng)絡(luò)入侵檢測特征之間的關(guān)聯(lián)規(guī)則。
2.2 支持向量機(jī)
對于一個(gè)兩分類問題,設(shè)滿足條件那么正類和負(fù)類分別定義為:
(1) 正類,個(gè)正類樣本的集合為對于全部均有
(2) 負(fù)類,個(gè)負(fù)類樣本的集合為,對于全部均有。
3 模糊關(guān)聯(lián)規(guī)則挖掘的入侵檢測步驟
Step1:收集網(wǎng)絡(luò)狀態(tài)信息,提取網(wǎng)絡(luò)的狀態(tài)特征。
Step2:采用模糊關(guān)聯(lián)規(guī)則挖掘算法對原始特征進(jìn)行處理,得到每一種特征的模糊隸屬度函數(shù)值。
Step3:根據(jù)隸屬度函數(shù)值對網(wǎng)絡(luò)入侵的特征進(jìn)行處理,減少學(xué)習(xí)樣本的規(guī)模。
Step4:支持向量機(jī)對訓(xùn)練樣本進(jìn)行學(xué)習(xí),建立最優(yōu)網(wǎng)絡(luò)入侵檢測的分類器。
Step5:采用測試樣本對網(wǎng)絡(luò)入侵檢測分類器的性能進(jìn)行分析。
4 實(shí)驗(yàn)結(jié)果與分析
采用當(dāng)前通用的網(wǎng)絡(luò)安全分析數(shù)據(jù)集——KDD CUP 99作為實(shí)驗(yàn)對象,該數(shù)據(jù)集中包括四種網(wǎng)絡(luò)入侵行為,分別為:Probe,DOS,U2R,R2L,它們包含了大量的數(shù)據(jù)記錄,每一條記錄均含有41個(gè)特征屬性,其中有離散的,也有連續(xù)特征,因此對它們要進(jìn)行預(yù)處理,使支持向量機(jī)可以直接識別和學(xué)習(xí)數(shù)據(jù)。選擇傳統(tǒng)數(shù)據(jù)挖掘算法的入侵檢測算法進(jìn)行對比實(shí)驗(yàn),對平均檢測正確率、誤報(bào)率和平均執(zhí)行時(shí)間進(jìn)行測試與分析。
網(wǎng)絡(luò)入侵檢測的正確率和誤報(bào)率如圖4,圖5所示。從圖4和圖5可知,與傳統(tǒng)數(shù)據(jù)挖掘算法的入侵檢測算法相比,模糊關(guān)聯(lián)規(guī)則挖掘算法的網(wǎng)絡(luò)入侵檢測正確率得到了顯著改善,平均檢測正確率超過95%,而且網(wǎng)絡(luò)入侵檢測的誤報(bào)率也得到了降低,這是因?yàn)橥ㄟ^引入模糊理論對網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)之間的關(guān)系進(jìn)行分析,找出它們之間存在的一些關(guān)聯(lián)規(guī)則,獲得了更加理想的網(wǎng)絡(luò)入侵檢測結(jié)果。
從表1可以看出,模糊關(guān)聯(lián)規(guī)則挖掘算法的執(zhí)行時(shí)間更短,加快了網(wǎng)絡(luò)入侵的檢測速度,這主要是因?yàn)橥ㄟ^模糊關(guān)聯(lián)規(guī)則挖掘,減少數(shù)據(jù)量,支持向量機(jī)的分類器結(jié)構(gòu)更加簡單,網(wǎng)絡(luò)入侵的應(yīng)用范圍更廣。
5 結(jié) 語
為了解決網(wǎng)絡(luò)入侵檢測中的數(shù)據(jù)量大,執(zhí)行效率低的難題,本文提出了基于模糊關(guān)聯(lián)規(guī)則挖掘的網(wǎng)絡(luò)入侵檢測算法,通過引入模糊關(guān)聯(lián)規(guī)則挖掘算法對網(wǎng)絡(luò)入侵檢測樣本數(shù)據(jù)進(jìn)行分析,提取最有效的特征,去除大量無用的特征,通過具體實(shí)驗(yàn)可知,相對于其他網(wǎng)絡(luò)入侵檢測算法,本文算法的網(wǎng)絡(luò)入侵檢測正確率提高了3%左右,遠(yuǎn)遠(yuǎn)超過實(shí)際應(yīng)用的85%,同時(shí)網(wǎng)絡(luò)入侵的平均漏檢率也有了大幅下降,加快了網(wǎng)絡(luò)入侵的檢測速度,能迅速對網(wǎng)絡(luò)入侵做出響應(yīng),有效保證了網(wǎng)絡(luò)的正常工作,具有良好的實(shí)用價(jià)值。
參考文獻(xiàn)
[1] 唐正軍,李建華.入侵檢測技術(shù)[M].北京:清華大學(xué)出版社,2004.
[2] 井小沛,汪厚祥,聶凱,等.面向入侵檢測的基于IMGA和MKSVM的特征選擇算法[J].計(jì)算機(jī)科學(xué),2012,39(7):96?99.
[3] DENNING D E. An intrusion detection model [J]. IEEE transactions on software engineering, 2010, 13(2): 222?232.
[4] HANG C L, WANG C J. A GA?based feature selection and parameters optimization for support vector machines [J]. Expert systems with applications, 2009, 36(2): 231?240.
[5] 何紹榮,梁金明,何志勇.基于互信息和關(guān)系積理論的特征選擇方法[J].計(jì)算機(jī)工程,2010,36(13):257?259.
[6] 陳友,程學(xué)旗,李洋,等.基于特征選擇的輕量級入侵檢測系統(tǒng)[J].軟件學(xué)報(bào),2007(7):1639?1651.
[7] 郭文忠,陳國龍,陳慶良,等.基于粒子群優(yōu)化算法和相關(guān)性分析的特征子集選擇[J].計(jì)算機(jī)科學(xué),2008,35(2):144?146.
[8] 高海華,楊輝華,王行愚.基于BPSO?SVM的網(wǎng)絡(luò)入侵特征選擇和檢測[J].計(jì)算機(jī)工程,2006,32(8):37?39.
[9] 陳仕濤,陳國龍,郭文忠,等.基于粒子群優(yōu)化和鄰域約簡的入侵檢測日志數(shù)據(jù)特征選擇[J].計(jì)算機(jī)研究與發(fā)展,2010,47(7):1261?1267.
[10] HONG J, SU M Y, CHEN Y H, et a1. A novel intrusion detection system based on hierarchical clustering and support vector machines [J]. Expert systems with applications, 2011, 38(1): 306?313.
[11] 陳友,沈華偉,李洋,等.一種高效的面向輕量級入侵檢測系統(tǒng)的特征選擇算法[J].計(jì)算機(jī)學(xué)報(bào),2007,30(8):1398?1408.
[12] 魏德志,吳旭,林麗娜,等.基于云計(jì)算的模糊規(guī)則挖掘算法在入侵檢測中的應(yīng)用[J].吉林師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(1):115?118.