張輝,劉成
(1. 新疆公安廳特別偵察隊(duì),新疆 烏魯木齊 830000;2. 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)
基于改進(jìn)的SVM方法的異常檢測(cè)研究
張輝1,劉成2
(1. 新疆公安廳特別偵察隊(duì),新疆 烏魯木齊 830000;2. 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)
利用非參數(shù)檢驗(yàn)的方法提取出對(duì)分類(lèi)結(jié)果影響顯著的特征變量,提出一種改進(jìn)的SVM多分類(lèi)方法(D-SVM),其融合了判別分析,可以解決樣本不均衡導(dǎo)致的分類(lèi)不準(zhǔn)確和誤報(bào)率高的問(wèn)題。將多分類(lèi)問(wèn)題處理成一個(gè)個(gè)二分類(lèi)問(wèn)題,D-SVM既可以保持SVM較好的分類(lèi)準(zhǔn)確性,同時(shí)又可以不受樣本不均衡的影響,具有較低的誤報(bào)率。將D-SVM應(yīng)用到KDD99數(shù)據(jù)集,結(jié)果表明,該方法具有較高的分類(lèi)準(zhǔn)確性和較低的誤報(bào)率。
異常檢測(cè);非參數(shù)檢驗(yàn);SVM分類(lèi);樣本不均衡;判別分析
計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)的發(fā)展極大地促進(jìn)了網(wǎng)絡(luò)與企業(yè)、個(gè)人生活的融合。據(jù)中國(guó)互聯(lián)網(wǎng)信息中心《第37次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2015年12月,全國(guó)使用計(jì)算機(jī)辦公的企業(yè)比例為95.2%,涉及供應(yīng)鏈、營(yíng)銷(xiāo)、財(cái)務(wù)和人力資源等方面;與此同時(shí),網(wǎng)絡(luò)購(gòu)物和網(wǎng)絡(luò)社交等已成為人們生活必不可少的一部分。隨著“互聯(lián)網(wǎng)+”的逐漸深入,網(wǎng)絡(luò)的作用會(huì)更加突出,網(wǎng)絡(luò)安全問(wèn)題也將會(huì)變得十分嚴(yán)峻,并成為制約網(wǎng)絡(luò)發(fā)展的因素。入侵檢測(cè)在網(wǎng)絡(luò)安全中有重要的作用,它可以實(shí)時(shí)地監(jiān)測(cè)、阻止來(lái)自網(wǎng)絡(luò)外部和內(nèi)部的入侵,保護(hù)網(wǎng)絡(luò)免受攻擊,造成損失。入侵檢測(cè)方法可以分為2類(lèi)[1]:誤用檢測(cè)(misuse detection)和異常檢測(cè)(anomaly detection)。誤用檢測(cè)只能檢測(cè)已知的攻擊,而異常檢測(cè)卻可以檢測(cè)新的、未知的攻擊。異常檢測(cè)已成為入侵檢測(cè)領(lǐng)域的主要研究對(duì)象[2,3],因此,本文以異常檢測(cè)為主要研究?jī)?nèi)容。
異常檢測(cè)的實(shí)質(zhì)是分類(lèi)問(wèn)題,即如何將數(shù)據(jù)分為正常和異常2類(lèi)。相關(guān)研究領(lǐng)域已有很多研究成果。異常檢測(cè)的研究方法主要有基于統(tǒng)計(jì)的方法、基于數(shù)據(jù)挖掘的方法和基于機(jī)器學(xué)習(xí)的方法這幾類(lèi)[4]。基于統(tǒng)計(jì)的方法其核心內(nèi)容就是利用統(tǒng)計(jì)方法設(shè)定閾值[5,6]或概率[7,8],對(duì)于未知的連接或數(shù)據(jù)分組,檢驗(yàn)其是否在設(shè)定的閾值或概率范圍內(nèi),從而判定是否為入侵或攻擊?;跀?shù)據(jù)挖掘的方法是以數(shù)據(jù)為中心,利用數(shù)據(jù)挖掘的相關(guān)技術(shù)和算法,找出審計(jì)數(shù)據(jù)或流量數(shù)據(jù)中存在的規(guī)律,從而發(fā)現(xiàn)入侵行為[9]?;跀?shù)據(jù)挖掘的檢測(cè)方法主要有基于離群點(diǎn)的挖掘方法、基于分類(lèi)的檢測(cè)方法、基于聚類(lèi)的檢測(cè)方法和基于關(guān)聯(lián)分析的檢測(cè)方法[10,11]。基于機(jī)器學(xué)習(xí)的方法主要有神經(jīng)網(wǎng)絡(luò)、遺傳算法、隱馬爾可夫模型和支持向量機(jī)(SVM)等[12]。
在這些方法中,SVM具有比較好的檢測(cè)效果[13,14]。SVM是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上,充分考慮了結(jié)構(gòu)風(fēng)險(xiǎn)最小化,通過(guò)學(xué)習(xí)得到一個(gè)使分類(lèi)間隔最大化的超平面,從而將不同的類(lèi)分別開(kāi)來(lái)。同時(shí),SVM具有良好的泛化能力,已經(jīng)被廣泛應(yīng)用到人臉識(shí)別、數(shù)據(jù)挖掘、入侵檢測(cè)等領(lǐng)域,并取得良好的分類(lèi)效果。本文選取SVM作為入侵檢測(cè)方法,可以達(dá)到比較好的檢測(cè)效果。但SVM方法對(duì)訓(xùn)練樣本有一定的要求,如果訓(xùn)練不足,可能會(huì)導(dǎo)致SVM分類(lèi)效果和進(jìn)度達(dá)不到要求。因此,本文在SVM方法的基礎(chǔ)上引進(jìn)判別分析的思想,提出一種改進(jìn)的SVM多分類(lèi)方法(D-SVM),該方法不僅能夠保留SVM較好的分類(lèi)效果,還能解決由于訓(xùn)練樣本較少而對(duì)SVM產(chǎn)生的影響。同時(shí),本文還提出一種非參數(shù)變量篩選的方法,選出對(duì)分類(lèi)結(jié)果有顯著作用的特征或變量,從而達(dá)到降維和提高分類(lèi)效果的作用。將本文提出的方法應(yīng)用到KDD99數(shù)據(jù)集,結(jié)果表明,本文提出的方法具有高的分類(lèi)精度。
2.1 SVM方法介紹
SVM的核心思想就是將樣本映射到一個(gè)高維空間,并在高維空間中線性可分。再通過(guò)在高維空間構(gòu)造一個(gè)超平面來(lái)達(dá)到分類(lèi)的目的。SVM一般用在解決二分類(lèi)問(wèn)題上,具有良好的效果;對(duì)于多分類(lèi)問(wèn)題,SVM分類(lèi)效果較差。為了使SVM在處理多分類(lèi)問(wèn)題時(shí)也能達(dá)到較好的分類(lèi)效果,本文采用二叉樹(shù)分類(lèi)思想,首先將多分類(lèi)問(wèn)題處理成二分類(lèi)問(wèn)題,再進(jìn)行逐步迭代,直至將所有的類(lèi)都分開(kāi)。
2.2 距離判別法
判別分析可以不受樣本不均衡問(wèn)題的影響,分類(lèi)效果比較理想且穩(wěn)健。距離判別的核心思想就是通過(guò)計(jì)算待判樣本到已知類(lèi)中心的距離,再比較距離的大小,樣本到哪個(gè)類(lèi)中心的距離最小,則該樣本就判定屬于哪一類(lèi)。距離判別法具有簡(jiǎn)單高效的特點(diǎn),它通過(guò)計(jì)算距離,直觀地將樣本歸類(lèi)。在某些方法失效的情況下,距離判別仍具有比較穩(wěn)健的分類(lèi)效果。距離判別的定義可以表示為
其中,G1,G2表示類(lèi)1和類(lèi)2;d(x,G1)和d(x,G2)表示x 到類(lèi)1和類(lèi)2的距離。在計(jì)算距離時(shí)一般選用馬氏距離。相比于歐氏距離,馬氏距離不僅能夠消除變量間量綱的影響,還能消除多維變量間多重相關(guān)性的影響。
3.1 KDD99數(shù)據(jù)集介紹
KDD99數(shù)據(jù)集是1998年美國(guó)國(guó)防部高級(jí)規(guī)劃署在MIT林肯實(shí)驗(yàn)室進(jìn)行的一項(xiàng)入侵檢測(cè)評(píng)估項(xiàng)目。通過(guò)模擬真實(shí)網(wǎng)絡(luò)環(huán)境,仿真各種用戶(hù)類(lèi)型、各種不同的網(wǎng)絡(luò)流量和攻擊手段。收集了9周時(shí)間的TCPdump數(shù)據(jù)。隨后來(lái)自哥倫比亞大學(xué)的Sal Stolfo 教授和來(lái)自北卡羅萊納州立大學(xué)的 Wenke Lee 教授對(duì)以上數(shù)據(jù)進(jìn)行特征分析和數(shù)據(jù)預(yù)處理,形成了一個(gè)新的數(shù)據(jù)集,使其只包含網(wǎng)絡(luò)流量數(shù)據(jù)。該數(shù)據(jù)集被用于1999年舉行的KDD CUP競(jìng)賽中,成為著名的KDD99數(shù)據(jù)集。KDD99數(shù)據(jù)集是公認(rèn)的入侵檢測(cè)的Benchmark數(shù)據(jù)集。
KDD數(shù)據(jù)集分為全部數(shù)據(jù)集(kddcup.data.gz,18M)和10%數(shù)據(jù)集(kddcup.data_10_percent.gz,2.1M)。本文以10%數(shù)據(jù)集為分析對(duì)象。
10%數(shù)據(jù)集包含494 021條記錄,每條記錄由41個(gè)特征變量和類(lèi)別標(biāo)簽表示,其中,34個(gè)是連續(xù)型變量,7個(gè)是名義型變量;包含5類(lèi)數(shù)據(jù):Normal(97 278條)、DoS攻擊(391 458條)、Probe攻擊(4 107條)、U2R攻擊(52)和R2L攻擊(1 126條)。本文主要使用34個(gè)連續(xù)型數(shù)值變量作為研究的特征變量。
3.2 非參數(shù)檢驗(yàn)變量篩選
變量篩選的目的是選出對(duì)分類(lèi)結(jié)果有顯著影響的特征變量,從而可以達(dá)到降維,提高效率的作用。不同于已有的變量綜合的方法,如PCA,本文提出一種利用非參數(shù)檢驗(yàn)篩選變量的方法。
Kolmogorov-Smirnov兩樣本分布檢驗(yàn),從樣本經(jīng)驗(yàn)分布出發(fā),利用大樣本性質(zhì)檢驗(yàn)2個(gè)樣本是否來(lái)自于同一個(gè)總體。假定樣本來(lái)自F(x)分布,樣本來(lái)自)分布,則Kolmogorov-Smirnov檢驗(yàn)如式(2)所示。
Kolmogorov-Smirnov檢驗(yàn)已經(jīng)運(yùn)用到許多方面[15~17],在本文中,利用Kolmogorov-Smirnov檢驗(yàn)方法檢驗(yàn)正常樣本與入侵或攻擊樣本在哪些特征變量上分布具有顯著的差異,選出檢驗(yàn)顯著的特征變量作為研究的變量。與PCA等變量綜合的方法不同,本文提出的非參數(shù)檢驗(yàn)變量篩選的方法可以直接選出正常樣本與入侵或攻擊樣本在統(tǒng)計(jì)上有顯著差異的變量,刪除不顯著的變量,消除冗余信息和不顯著變量信息對(duì)分類(lèi)的干擾,比變量綜合的方法更簡(jiǎn)便、有效。
4.1 Kolmogorov-Smirnov檢驗(yàn)變量選擇
為了研究的簡(jiǎn)便,本文以KDD99數(shù)據(jù)集的10%數(shù)據(jù)集為研究對(duì)象,且只選取34個(gè)連續(xù)型變量和標(biāo)簽變量作為研究的特征變量。因此,得到了一個(gè)494 021×35的數(shù)據(jù)表,其中表的每一行表示一條記錄,前34列表示選取的34個(gè)特征變量(數(shù)值型),第35列是標(biāo)簽,表示每一條記錄所屬的類(lèi)別(Normal,DoS,Probe,R2L,U2R)。將10%數(shù)據(jù)集分為正常、入侵或攻擊2類(lèi),分別記為類(lèi)N和類(lèi)A,其中,類(lèi)N中樣本數(shù)為97 278,占19.6%;類(lèi)A中樣本數(shù)為396 743,占80.4%。運(yùn)用Kolmogorov-Smirnov方法檢驗(yàn)類(lèi)N和類(lèi)A在哪些變量上的分布不存在顯著差異,結(jié)果如表1所示。
表1 KS檢驗(yàn)不顯著特征變量
從表1中可以看出這14個(gè)特征變量在類(lèi)N和類(lèi)A上表現(xiàn)并無(wú)顯著差異。因此,可以認(rèn)為這些特征變量對(duì)分類(lèi)結(jié)果沒(méi)有顯著影響。最終得到了一個(gè)494 021×21的數(shù)據(jù)表。
4.2 正常與異常行為分類(lèi)
對(duì)于入侵檢測(cè),首先關(guān)心的是將正常行為和異常行為分開(kāi),這是評(píng)價(jià)研究方法的關(guān)鍵指標(biāo)。首先利用SVM分類(lèi)方法構(gòu)建第一級(jí)分類(lèi)器將正常行為樣本與異常行為樣本分開(kāi)。
在數(shù)據(jù)集中按比例隨機(jī)選取5 000個(gè)正常樣本,20 000個(gè)異常樣本作為訓(xùn)練集。按照同樣的方式選取10 000個(gè)正常樣本和40 000個(gè)異常樣本作為測(cè)試集。獨(dú)立重復(fù)進(jìn)行5次實(shí)驗(yàn),結(jié)果如表2所示。
表2 5次獨(dú)立實(shí)驗(yàn)平均結(jié)果
從表2中可以看出,SVM可以有效地將正常和異常樣本分隔開(kāi),分類(lèi)效果比較理想。正常行為和異常行為的分類(lèi)準(zhǔn)確率分別達(dá)到99.92%和98.32%,整體分類(lèi)正確率達(dá)到99.59%。說(shuō)明第一級(jí)分類(lèi)可以以較高準(zhǔn)確率(99.92%)識(shí)別入侵或攻擊行為,為入侵行為的進(jìn)一步分類(lèi)奠定了基礎(chǔ)。
4.3 異常行為具體攻擊類(lèi)別分類(lèi)
4.3.1 R2L、U2R與DoS、Probe分類(lèi)
使用KDD99數(shù)據(jù)集研究多分類(lèi)文獻(xiàn)中,關(guān)于R2L和U2R的分類(lèi)效果都不理想,原因在于這2類(lèi)攻擊樣本太少,導(dǎo)致訓(xùn)練不足??紤]到數(shù)據(jù)集中R2L和U2R樣本數(shù)較少,將這2類(lèi)攻擊合為一類(lèi)攻擊,記作R&U;DoS和Probe當(dāng)作一類(lèi),記作D or P。利用SVM分類(lèi),結(jié)果如表3所示。
表3 R&U和D or P的平均誤報(bào)率(5次獨(dú)立實(shí)驗(yàn))
從表3中可以看出,即使使用二分類(lèi)SVM方法,R&U的誤報(bào)率仍然很高,達(dá)到44%,SVM方法對(duì)于R&U的分類(lèi)效果很差。
為了解決R&U誤報(bào)率高的問(wèn)題,隨機(jī)選取5 000個(gè)正常樣本,求出樣本中心。按比例分別隨機(jī)選取40 400個(gè)D or P樣本和100個(gè)R&U樣本,分別計(jì)算這2類(lèi)樣本到正常樣本中心的馬氏距離。這2類(lèi)的馬氏距離分布如圖1所示。
圖1 R&U和D or P到正常樣本類(lèi)中心馬氏距離分布
從圖1中可以清楚地看到R&U和D or P這2類(lèi)到正常樣本中心的馬氏距離具有明顯的位置差異,說(shuō)明這2類(lèi)到正常樣本中心的馬氏距離顯著不同。因此,可以用距離判別方法構(gòu)建第二級(jí)分類(lèi)器將這2類(lèi)分開(kāi)。
隨機(jī)選取5 000正常樣本,計(jì)算每一個(gè)樣本到中心的馬氏距離的均值和方差,分別用MN和VN表示。隨機(jī)選取40 400個(gè)D or P樣本和100個(gè)R&U樣本,組成待分類(lèi)樣本記作Test,分別計(jì)算Test中每一個(gè)樣本到正常樣本中心的馬氏距離,用集合MdTest表示。計(jì)算MdTest中每個(gè)元素到正常樣本中心的偏差程度,用w表示,如式(4)所示。
為了確定w的最優(yōu)取值,令w從0到4依次取值。每次增加0.1,得到R&U的誤報(bào)率如圖2所示。
圖2 R&U誤報(bào)率與w變化關(guān)系
如圖2所示,R&U的誤報(bào)率隨著w的增加,呈現(xiàn)逐步下降的趨勢(shì),兩者之間表現(xiàn)出負(fù)相關(guān)關(guān)系。此外,隨著w的增加,D or P的誤報(bào)率逐漸上升,R&U與D or P整體分類(lèi)準(zhǔn)確率呈下降趨勢(shì),為了平衡R&U誤報(bào)率和整體分類(lèi)準(zhǔn)確率,本文選取圖2中R&U的第3個(gè)平穩(wěn)點(diǎn)作為w的最優(yōu)取值(w=1.2)。
為了測(cè)試距離判別方法的分類(lèi)效果,按照上文方法進(jìn)行5次獨(dú)立重復(fù)實(shí)驗(yàn),結(jié)果如表4所示。
表4 R&U與D or P平均誤報(bào)率
對(duì)比表3和表4可以看出,相比于SVM方法,距離判別不僅能夠大幅度降低R&U的誤報(bào)率,同時(shí),分類(lèi)正確率較SVM降低得也比較?。≧&U的誤報(bào)率降低59.09%,而檢測(cè)正確率才只下降0.97%),可以認(rèn)為兩者的分類(lèi)正確性沒(méi)有顯著差別。由此可見(jiàn),距離判別方法較SVM方法在R&U與D or P分類(lèi)問(wèn)題上表現(xiàn)更好。
4.3.2 DoS與Probe分類(lèi)
類(lèi)R&U和類(lèi)D or P充分分開(kāi)后,再使用SVM構(gòu)建第三級(jí)分類(lèi)器,對(duì)DoS和Probe判別分類(lèi),分類(lèi)結(jié)果如表5所示。
表5 DoS和Probe分類(lèi)結(jié)果(5次平均結(jié)果)
表5的分類(lèi)結(jié)果表明,SVM方法可以有效地將DoS和Probe分開(kāi),具有較高的分類(lèi)準(zhǔn)確率(DoS為99.95%,Probe為98.96%)和正確率(99.94%)。
以上結(jié)果表明,采用三級(jí)分類(lèi)器構(gòu)建的SVM多分類(lèi)方法,即D-SVM方法,既能保持SVM分類(lèi)的優(yōu)勢(shì),同時(shí)又能解決由于訓(xùn)練樣本不足導(dǎo)致分類(lèi)效果不理想的問(wèn)題。
4.4 結(jié)果比較
為了比較D-SVM方法與其他方法的分類(lèi)效果,選取了PCA-Logit[18]、CANN[19],結(jié)果如表6所示。。
表6 D-SVM與PCA-Logit、CANN分類(lèi)結(jié)果比較
通過(guò)表6可以看出,本文提出的D-SVM方法相比于其他2種方法具有一定的優(yōu)勢(shì),具有較高的整體分類(lèi)準(zhǔn)確率(accuracy)和檢測(cè)率(DR)。在整體分類(lèi)準(zhǔn)確率指標(biāo)上,D-SVM略高于其他2種方法;但在檢測(cè)率指標(biāo)上,D-SVM具有顯著的優(yōu)勢(shì),尤其體現(xiàn)在U2R和R2L的檢測(cè)率上,D-SVM方法的U&R檢測(cè)率達(dá)到82%,遠(yuǎn)遠(yuǎn)高于其他2種方法,從而說(shuō)明,即使在樣本不均衡的情況下,D-SVM較其他2種方法仍然能夠更加準(zhǔn)確地識(shí)別出U2R和R2L 2類(lèi)攻擊。因此,與其他2種方法相比,D-SVM具有較高的分類(lèi)準(zhǔn)確率和檢測(cè)率;同時(shí)還可以較少地受到來(lái)自不均衡問(wèn)題的影響,具有穩(wěn)健性。
本文基于SVM方法,提出一種綜合判別分析的多分類(lèi)方法—— D-SVM。通過(guò)構(gòu)建一個(gè)三級(jí)分類(lèi)器,實(shí)現(xiàn)了正常行為與入侵行為的準(zhǔn)確分類(lèi)以及入侵行為所屬類(lèi)別分類(lèi)的功能。第一級(jí)分類(lèi)器利用SVM方法將正常和異常行為分開(kāi);第二級(jí)分類(lèi)器利用距離判別分析方法將類(lèi)R&U和類(lèi)D or P分開(kāi);第三級(jí)分類(lèi)器再利用SVM方法將DoS和Probe分開(kāi)。并用非參數(shù)檢驗(yàn)的方法選取對(duì)分類(lèi)結(jié)果具有顯著影響的特征變量,從而實(shí)現(xiàn)降維和提高檢測(cè)效率的作用。KDD99數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文提出的方法具有較高的分類(lèi)準(zhǔn)確率和較低的誤報(bào)率,并克服了由于樣本不均衡導(dǎo)致的訓(xùn)練不足、分類(lèi)結(jié)果不理想的缺點(diǎn)。
[1] LEE W, STOLFO S J, MOK K W. A data mining framework for building intrusion detection models[C]//The IEEE Symposium on Security and Privacy. c1999: 120-132.
[2] VERWOERD T, HUNT R. Intrusion detection techniques and approaches[J]. Computer Communications, 2002, 25(15): 1356- 1365.
[3] ENDORF C F, SCHULTZ E, MELLANDER J. Intrusion detection & prevention[M]. McGraw-Hill Osborne Media, 2004.
[4] LIAO H J, LIN C H R, LIN Y C, et al. Intrusion detection system: a comprehensive review[J]. Journal of Network and Computer Applications, 2013, 36(1): 16-24.
[5] SHYU M L, CHEN S C, SARINNAPAKORN K, et al. A novel anomaly detection scheme based on principal component classifier[R]. Coral Gables Department of Electrical and Computer Engineering of Miami University, 2003.
[6] JAMDAGNI A, TAN Z, HE X, et al. Repids: a multi tier real-time payload-based intrusion detection system[J]. Computer Networks,2013, 57(3): 811-824.
[7] 胡志鵬, 魏立線, 申軍偉, 等. 基于核Fisher判別分析的無(wú)線傳感器網(wǎng)絡(luò)入侵檢測(cè)算法[J]. 傳感技術(shù)學(xué)報(bào), 2012(2): 246-250. HU Z P, WEI L X, SHEN J W, et al. An intrusion detection algorithm for wsn based on kernel Fisher discriminant[J]. Chinese Journal of Sensors and Actuators, 2012(2): 246-250.
[8] MOK M S, SOHN S Y, JU Y H. Random effects logistic regression model for anomaly detection[J]. Expert Systems with Applications,2010, 37(10): 7162-7166.
[9] 郭春. 基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)關(guān)鍵技術(shù)研究[D]. 北京:北京郵電大學(xué), 2014. GUO C. Research on key technologies of network intrusion detection based on data mining[D]. Beijing: Beijing University of Posts and Telecommunications, 2014.
[10] LEE W, STOLFO S J, MOK K W. Adaptive intrusion detection: a data mining approach[J]. Artificial Intelligence Review, 2000, 14(6):533-567.
[11] HWANG T S, LEE T J, LEE Y J. A three-tier IDS via data mining approach[C]//The 3rd Annual ACM Workshop on Mining Network Data. c2007: 1-6.
[12] AN W, LIANG M. A new intrusion detection method based on SVM with minimum within class scatter[J]. Security and Communication Networks, 2013, 6(9): 1064-1074.
[13] MUKKAMALA S, JANOSKI G, SUNG A. Intrusion detection using neural networks and support vector machines[C]//The 2002 International Joint Conference on Neural Networks(IJCNN'02)c2002: 1702-1707.
[14] GAN X S, DUANMU J S, WANG J F, et al. Anomaly intrusion detection based on PLS feature extraction and core vector machine[J]. Knowledge-Based Systems, 2013, (40): 1-6.
[15] 葉鋼, 余丹, 李重文, 等. 一種基于Kolmogorov-Smirnov檢驗(yàn)的缺陷定位方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2013(4): 686-699. YE G, YU D, LI C W, et al. Fault localization based on Kolmogorov-Smirnov testing model[J]. Journal of Computer Research and Development, 2013(4): 686-699.
[16] 從飛云, 陳進(jìn), 董廣明. 基于AR模型的Kolmogorov-Smirnov檢驗(yàn)性能退化及預(yù)測(cè)研究[J]. 振動(dòng)與沖擊, 2012(10): 79-82. CONG F Y, CHEN J, DONG G M. Performance degradation assessment by Kolmogorov-Smirnov test and prognosis based on AR model[J]. Journal of Vibration and Shock, 2012(10): 79-82.
[17] 陳敏. 門(mén)限自回歸模型條件異方差的Kolmogorov-Smirnov檢驗(yàn)[J]. 應(yīng)用數(shù)學(xué)學(xué)報(bào), 2002(4): 577-590. CHEN M. A Kolmogorov-Smirnov test of conditional heteroscedasticity for threshold autoregressive models[J]. Acta Mathematicae Applicatae Sinica, 2002(4): 577-590.
[18] 李蕊. 基于PCA和LOGIT模型的網(wǎng)絡(luò)入侵檢測(cè)方法[J]. 成都信息工程學(xué)院學(xué)報(bào), 2014(3): 261-267. LI R. A network intrusion detection method based on PCA and LOGIT model[J]. Journal of Chengdu University of Information Technology, 2014(3): 261-267.
[19] LIN W C, KE S W, TSAI C F. CANN: an intrusion detection system based on combining cluster centers and nearest neighbors[J]. Knowledge-based systems, 2015, 7(8): 13-21.
張輝(1979-),女,河南鎮(zhèn)平人,碩士,新疆公安廳特別偵察隊(duì)技術(shù)八級(jí)工程師,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全、網(wǎng)絡(luò)偵察技術(shù)。
劉成(1985-),男,湖南邵陽(yáng)人,博士,國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心高級(jí)工程師,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全、網(wǎng)絡(luò)攻防技術(shù)。
Anomaly intrusion detection based on modified SVM
ZHANG Hui1, LIU Cheng2
(1. Special Reconnaissance Team of Xinjiang Public Security Bureau, Urumpi 830000, China;2. National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China)
A modified SVM multi-classification algorithm integrated with discriminant analysis (D-SVM) was proposed, which could solve the problem of low detection accuracy and high false alarm rate caused by unbalanced datasets. For a multi-classification problem could be divided into several binary classification problems, D-SVM could not only have the virtue of high detection accuracy, but also have a low false alarm rate even confronted with unbalanced datasets. Experiments based on KDD99 dataset verify the feasibility and validity of the integrated approach. Results show that when confronted with multi-classification problems, D-SVM could achieve a high detection accuracy and low false alarm rate even when SVM alone fails because of the unbalanced datasets.
anomaly detection, non-parametric test, SVM classifier, unbalanced datasets, discriminant analysis
TP309/TP274
A
10.11959/j.issn.2096-109x.2016.00092
2016-06-11;
2016-07-23。通信作者:劉成,lc@cert.org.cn