范曉詩 雷英杰 王亞男 郭新鵬
直覺模糊集合(Intuitionistic Fuzzy Set, IFS)作為模糊集合的泛化理論,因其引入猶豫度參數(shù)對(duì)客觀事物不確定性表述的優(yōu)勢,被學(xué)者們廣泛研究。直覺模糊推理(Intuitionistic Fuzzy Reasoning, IFR)是模糊理論應(yīng)用最為廣泛的工具,文獻(xiàn)[1]將直覺模糊推理與認(rèn)知圖結(jié)合,應(yīng)用于決策支持,文獻(xiàn)[2]利用模糊神經(jīng)網(wǎng)絡(luò)規(guī)則推理對(duì)非線性系統(tǒng)進(jìn)行控制,文獻(xiàn)[3]將直覺模糊推理理論應(yīng)用于目標(biāo)識(shí)別領(lǐng)域,得到了很好的識(shí)別效果,文獻(xiàn)[4]首次提出了Ⅱ型模糊集理論在模式識(shí)別中的應(yīng)用問題,文獻(xiàn)[5]和文獻(xiàn)[6]分別將模糊推理運(yùn)用于故障診斷與圖像處理方面,文獻(xiàn)[7,8]研究了威脅評(píng)估中的直覺模糊推理方法。由此可見,直覺模糊推理理論是一種十分有效的智能信息處理方法。
相似度和包含度是直覺模糊集合間關(guān)系的度量,能夠有效處理直覺模糊計(jì)算問題,是精確問題和模糊問題相互轉(zhuǎn)換的橋梁,許多文獻(xiàn)也做了相關(guān)研究,文獻(xiàn)[9]和文獻(xiàn)[10]分別研究了直覺模糊相似度的建模和模式識(shí)別應(yīng)用問題,文獻(xiàn)[11]提出了基于包含度的直覺模糊推理方法,并證明給出的公式滿足相關(guān)公理化定義。這些研究都為直覺模糊推理的應(yīng)用和推廣提供了理論基礎(chǔ),并促進(jìn)相關(guān)領(lǐng)域的創(chuàng)新和發(fā)展。
異常檢測是網(wǎng)絡(luò)安全面對(duì)的重要問題,網(wǎng)絡(luò)異常檢測通常分為基于統(tǒng)計(jì)的檢測和基于特征的異常檢測,前者通用性能好,但準(zhǔn)確度不夠理想,后者的優(yōu)點(diǎn)是準(zhǔn)確度高,缺點(diǎn)是特征匹配方法往往效率較低,維護(hù)特征數(shù)據(jù)庫的系統(tǒng)開銷較大。流量異常檢測已有許多基于不同智能計(jì)算理論的研究,如統(tǒng)計(jì)學(xué)原理、免疫計(jì)算[12]、支持向量機(jī)[13]等,以及一些結(jié)合模糊理論的方法,如遺傳模糊系統(tǒng)[14]、模糊粒子群算法[15]。傳統(tǒng)異常檢測方法受到計(jì)算復(fù)雜度和數(shù)據(jù)規(guī)模的限制,只能選取若干特征屬性作為檢測指標(biāo),對(duì)網(wǎng)絡(luò)流量全局特征的刻畫能力有限,尤其是針對(duì)連續(xù)特征屬性,傳統(tǒng)精確數(shù)據(jù)的處理方法,為了提高檢測準(zhǔn)確率,通常采用模式規(guī)模擴(kuò)充,或者對(duì)特征屬性進(jìn)行更細(xì)致的劃分,這些方法都是以犧牲系統(tǒng)資源為代價(jià),不利于計(jì)算方法的進(jìn)一步優(yōu)化。直覺模糊理論可以很好描述系統(tǒng)的不確定性和模糊性,通過直覺模糊化將精確數(shù)據(jù)映射到直覺模糊集中,降低規(guī)則庫規(guī)模,是解決網(wǎng)絡(luò)流量分類、異常檢測問題的新思路。
本文將直覺模糊推理理論應(yīng)用于網(wǎng)絡(luò)流量異常檢測,充分考慮流量特征描述不確定性和模糊性,并通過實(shí)驗(yàn)證明其有效性。
直覺模糊推理的一般過程包括系統(tǒng)輸入變量直覺模糊化,推理規(guī)則的建立,推理規(guī)則合成,輸出結(jié)果等步驟。運(yùn)用直覺模糊推理方法進(jìn)行異常檢測時(shí),首先對(duì)網(wǎng)絡(luò)流量特征屬性直覺模糊化,然后建立相應(yīng)的推理規(guī)則庫,根據(jù)推理規(guī)則合成,將檢測數(shù)據(jù)輸入系統(tǒng),最后得到輸出結(jié)果。
根據(jù)網(wǎng)絡(luò)流量特征屬性,確定直覺模糊系統(tǒng)的隸屬度和非隸屬度函數(shù)。該方法實(shí)際上是一個(gè)集合映射的過程,將每一個(gè)特征屬性定義為一個(gè)直覺模糊變量,根據(jù)特征屬性類型確定函數(shù)。異常檢測KDD99數(shù)據(jù)集[16]中屬性包括離散型和連續(xù)型,由于離散型數(shù)值各自互斥,沒有明顯的相關(guān)性和相似性,因而采用嚴(yán)格三角隸屬度。本文涉及的主要特征屬性參數(shù)說明如表1所示。
假設(shè)某一特征屬性A有N個(gè)離散屬性值,定義第i個(gè)屬性值對(duì)應(yīng)隸屬度函數(shù)為(i -1)/n,令猶豫度πA(x)= 0 ,則非隸屬度函數(shù)為 γA(x)= 1 - μA(x) 。例如,KDD99數(shù)據(jù)集中protocol_type特征屬性包括3個(gè)離散變量TCP, UDP和ICMP,根據(jù)上述定義,可以計(jì)算得到其特征屬性函數(shù)分別為<0, 1>,<0.333, 0.667>和<0.667, 0.333>。
為了合理描述網(wǎng)絡(luò)流量分布特性,對(duì)于連續(xù)型變量,采用高斯型隸屬度函數(shù),即
根據(jù)式(1),首先對(duì)特征屬性的論域進(jìn)行劃分,得到特征屬性子集,其次確定參數(shù)σ和c,得到各個(gè)特征變量函數(shù),計(jì)算特征屬性值對(duì)應(yīng)各個(gè)直覺模糊子集的相關(guān)輸入函數(shù)參數(shù),具體步驟為:
步驟 1 根據(jù)屬性特征劃分特征子集 x變化范圍,記做 I1,I2,… ,In;
步驟2 設(shè)特征屬性子集Ai的定義域?yàn)閇A,B],確定對(duì)應(yīng)的值域?yàn)閇C, D],記映射函數(shù)為 f(x, a, b, c);
步驟3 計(jì)算映射參數(shù),D=σ+c,其中c為中心, σ為寬度,a = A +( B-A)/2,將定義域和值域帶入映射函數(shù)f=c+(x-a)/b,計(jì)算得到b;
步驟 4 多次代入數(shù)值檢驗(yàn) x輸出分布是否均勻,調(diào)整參數(shù)和區(qū)間劃分;
步驟 5 根據(jù)式(1)計(jì)算隸屬度與非隸屬度函數(shù)。
例如對(duì)數(shù)據(jù)包byte這一特征屬性進(jìn)行直覺模糊化,由于網(wǎng)絡(luò)中字節(jié)數(shù)這一指標(biāo)是非均勻分布,存在大量空數(shù)據(jù)包,而小數(shù)據(jù)包變化單位為字節(jié)級(jí),而大數(shù)據(jù)包變化尺度為百字節(jié)級(jí)甚至千字節(jié)級(jí),平均劃分論域不能很好描述數(shù)據(jù)特征。因此,本文對(duì)全局論域變尺度劃分,得到數(shù)據(jù)包由大到小分別為B1=[10240,∞ ), B2=[4096, 10240), B3=[1024,4096), B4=[256, 1024), B5= [1, 256), B6=0。相應(yīng)的直覺模糊子集可劃分為I1=[0, 0.1), I2=[0.1, 0.3),I3=[0.3, 0.5), I4=[0.5, 0.7), I5=[0.7, 0.9), I6=1,隸屬度函數(shù)如圖1所示,特征屬性Byte函數(shù)參數(shù)值如表2所示。根據(jù)以上步驟,可以得出特征屬性byte輸入函數(shù)為
表1 KDD99數(shù)據(jù)集主要特征屬性參數(shù)說明
同理可以分別得到特征屬性 duration, service,flag, urgent的函數(shù),將特征屬性service和flag直接線性映射在[0,1]區(qū)間,其余連續(xù)函數(shù)如式(3)和式(4)所示。
圖 1 變量byte隸屬度函數(shù)
最后,定義輸出論域U'。將流量檢測結(jié)果分為5類,normal, Probe, DoS, U2R和R2L,分別對(duì)應(yīng)5個(gè)直覺模糊子集[0,0.2], [0.2,0.4], [0.4,0.6], [0.6,0.8]和[0.8,1.0]。
對(duì)于U2R和R2L之類的攻擊,其數(shù)據(jù)包與正常連接沒有明顯區(qū)別,所以選擇若干基于連接內(nèi)容和連接時(shí)間的特征屬性如hot, count。經(jīng)過特征屬性直覺模糊化后,得到異常檢測參數(shù)變量 D(duration),S(service), F(flag), B(byte), U(urgent), H(hot),C(count),則異常檢測推理系統(tǒng)推理規(guī)則數(shù) N=Nd×Ns×Nf×Nb×Nu×Nh×Nc= 4×70×11×6×3×3×3=498960。這樣的推理規(guī)則數(shù)量過于龐大,可以進(jìn)行再次直覺模糊化,例如service特征屬性包含70個(gè)變量,而csnet_net, ctf, discard, daytime等均對(duì)應(yīng)neptune攻擊,將這些可以推理出相同分類結(jié)果的服務(wù)類型進(jìn)行聚合,最后得到12個(gè)新的直覺模糊子集,約簡后推理規(guī)則N′=4×12×11×6×3×3×3=85536條,可見利用屬性約簡的方法可以大大降低推理規(guī)則數(shù)量,另一方面,這里的N′是理論規(guī)則庫,并非所有規(guī)則都需要生成,通過前期對(duì)樣本數(shù)據(jù)的訓(xùn)練,得到理論規(guī)則庫的一個(gè)子集,可進(jìn)一步縮減規(guī)則庫的規(guī)模,達(dá)到提高效率的目的。
包含度和強(qiáng)相似度是刻畫直覺模糊集合關(guān)系的度量,能夠有效反應(yīng)直覺模糊集數(shù)據(jù)間關(guān)系,是直覺模糊推理的基礎(chǔ),本文擬在相關(guān)理論的基礎(chǔ)上構(gòu)建基于直覺模糊推理的異常檢測方法。
下面給出直覺模糊包含度的相關(guān)定→義[11]。定義1 設(shè)直覺模糊集上IFS×IFS[0,1]的映射θ滿足條件:(1)A ? B ? θ (A, B )=1,(2)θ(A , φ ) = 0,(3)A ? B ? C ? θ (C, A) ≤ m in{θ( B, A) , θ(C, B)}。 則 稱θ(A, B)為A在B中的包含度,θ為IFS上的包含度函數(shù)。
表2 特征屬性byte函數(shù)參數(shù)值
定義2 設(shè)R是直覺模糊蘊(yùn)含算子R(a,b)關(guān)于a的非增函數(shù),關(guān)于b的非減函數(shù),則為IFS包含度函數(shù),λ是蘊(yùn)涵算子權(quán)重系數(shù),一般取值較小,這里取λ=0.1。包含度函數(shù)選擇不唯一,通常選擇滿足定義并易于計(jì)算的函數(shù)。
定義3 設(shè)θ(A, B)為IFS上的包含度函數(shù),則
是A和B的強(qiáng)相似度量,相關(guān)公理化定義可參閱文獻(xiàn)[10]。
根據(jù)以上定義和函數(shù)公式,表3給出多維多重式規(guī)則的基于包含度的直覺模糊推理形式。
表 3 中,i(D)=1,2,…,Nd, i(S)=1,2,…,Ns,i(F)=1, 2,…,Nf, i(B)=1,2,…,Nb, i(U)=1,2,…,Nu,i(H)= 1,2,…,Nh, i(C)=1,2,…,Nc, CFi為直覺模糊推理可信度因子,d, s, f, b, u, h, c是輸入特征屬性變量,z是輸出變量,D,S,F,B,U,H,C是語言前件,即<d, μDi,γDi>,d∈D;<s,μSi, γSi>,s∈S;<f,μFi,γFi>,f ∈ F ;<b,μBi,γBi>,b ∈B;<u,μUi,γUi>, u ∈U ; < h, μHi, γHi>, h ∈ H ;<c, μCi, γCi>, c ∈ C 。U'為推理后件,即輸出論域的直覺模糊子集, < z, μU′j,γU′j>, z ∈ U '。
表3 基于包含度的直覺模糊推理形式
根據(jù)以上定義,可以構(gòu)建出直覺模糊推理方法,具體步驟為:
步驟 1 根據(jù)式(5)選取λ和直覺模糊蘊(yùn)含算子R,若X表示規(guī)則特征屬性變量,X*表示檢測數(shù)據(jù)特征屬性,求得包含度*(,)X Xθ,進(jìn)而根據(jù)式(6)求得強(qiáng)相似度*
(,)X Xδ。步驟 2 利用 Mamdani算子 Rc(A→B)推導(dǎo)輸出結(jié)果z。則Z =< μR,γR>, z ∈ U '。
δ(X, X*)的推理結(jié)果為
i
式中N是特征屬性維數(shù)。根據(jù)上述推理過程,將檢測數(shù)據(jù)在規(guī)則庫中進(jìn)行匹配,選擇最大強(qiáng)相似度輸出直覺模糊集作為推導(dǎo)結(jié)果。
為驗(yàn)證本文提出的直覺模糊推理異常檢測的方法,利用KDD99實(shí)驗(yàn)數(shù)據(jù)集的10%的訓(xùn)練樣本集生成一個(gè)直覺模糊推理規(guī)則庫,接著對(duì)corrected測試數(shù)據(jù)集直覺模糊化,得到輸入向量,最后經(jīng)過推理系統(tǒng)得到輸出結(jié)果,以分類準(zhǔn)確率驗(yàn)證方法性能。
訓(xùn)練樣本集的部分?jǐn)?shù)據(jù)如表 4所示,每條數(shù)據(jù)由7維特征屬性和1個(gè)類別標(biāo)簽構(gòu)成,根據(jù)變量直覺模糊化方法得到相應(yīng)的推理規(guī)則庫,部分規(guī)則如表5所示。規(guī)則推理求解如圖2所示,從圖中可以看出,前4條規(guī)則可以合并為1條,由此可見直覺模糊化具有化簡規(guī)則庫的作用。
實(shí)驗(yàn) 1本文首先驗(yàn)證推理方法的有效性,以corrected測試數(shù)據(jù)集隨機(jī)選取的9條數(shù)據(jù)為例,如表6前8列所示,首先對(duì)檢測數(shù)據(jù)進(jìn)行直覺模糊化,得到如下輸入向量:
I1= [1, 0.9130, 0.1818, 0.7820, 1, 0, 0.0020], I2=[1, 0.9130, 0.1818, 0.7820, 1, 0, 0.0040], I3= [1,0.7470, 0.1818, 0.3005, 1, 0, 0.9785], I4= [1, 0.7470,0.1818, 0.3005, 1, 0, 0.9941], I5= [1, 0.7470, 0.1818,0.3005, 1, 0, 0.9980], I6= [1, 0.7470, 0.1818, 0.7141,1, 0, 0.0020], I7= [0.7880, 0.1660, 0.1818, 0.9586, 1,0, 0.0040], I8= [1, 1, 0.5454, 1, 1, 0, 0.0040], I9= [1,1, 0.5454, 1, 1, 0, 0.0020]。
表4 訓(xùn)練樣本數(shù)據(jù)集
表5 推理規(guī)則庫
圖 2 規(guī)則推理圖
接著將向量輸入規(guī)則庫,分別求出與每條規(guī)則的強(qiáng)相似度,取最大強(qiáng)相似度輸出結(jié)果Z*,得到推理結(jié)果O1=0.2, O2=1.0, O3=0.6, O4=0.6, O5=0.6,O6=0.6, O7=0.4, O8=0.8, O9=0.8,最后反推出所屬類別label,結(jié)果如表6第9列所示。
經(jīng)過與原始標(biāo)簽對(duì)比,9條數(shù)據(jù)分類結(jié)果正確,通過實(shí)驗(yàn)1可以看出,基于該直覺模糊推理系統(tǒng)的異常檢測方法是有效的。
實(shí)驗(yàn) 2 對(duì)比本文方法與其他相關(guān)方法,測試數(shù)據(jù)集corrected包括約300000條數(shù)據(jù),為測試直覺模糊推理方法的分類效果,從中隨機(jī)選擇 10000條數(shù)據(jù),其中包括5227條正常數(shù)據(jù)和4773條異常數(shù)據(jù),數(shù)據(jù)分布情況如表7第1列所示。分別對(duì)測試數(shù)據(jù)進(jìn)行8次實(shí)驗(yàn)取平均值。前3次實(shí)驗(yàn)得到分類結(jié)果及8次平均正類正確分類率TP和正類錯(cuò)誤分類率FP值如表7所示。
表6 檢測數(shù)據(jù)集
實(shí)驗(yàn)分類正確率結(jié)果與相關(guān)經(jīng)典方法比較,根據(jù)文獻(xiàn)[17]的實(shí)驗(yàn)部分,對(duì)比Wenke Lee的異常檢測方法,SVM, BP network,免疫算法[12]和遺傳模糊系統(tǒng)(基于Michigan算法)[14]方法,取平均分類正確率如表8所示。
通過表8可以看出,基于包含度的直覺模糊推理方法在網(wǎng)絡(luò)流量異常檢測中具有良好的表現(xiàn),由于DoS攻擊具有明顯的特征屬性,各種異常檢測方法均能達(dá)到良好的檢測結(jié)果,對(duì)于Probing攻擊,本文提出的方法僅較 SVM 和 BP network略有遜色,仍然具有較高的檢測率,R2L和U2L攻擊特征屬性并不明顯,不同方法特征提取的不同導(dǎo)致檢測結(jié)果差異較大,而基于直覺模糊推理的方法有規(guī)則庫作為支持,對(duì)該類攻擊檢測結(jié)果均能達(dá)到90%以上,從而說明本文方法的有效性和泛化能力。
本文針對(duì)網(wǎng)絡(luò)流量異常檢測問題,提出了基于直覺模糊推理的異常檢測方法,將直覺模糊理論針對(duì)不確定性和模糊性描述能力強(qiáng)的特性與網(wǎng)絡(luò)流量特征屬性相結(jié)合,進(jìn)一步提高了網(wǎng)絡(luò)流量的刻畫能力。通過 KDD99標(biāo)準(zhǔn)數(shù)據(jù)實(shí)驗(yàn),驗(yàn)證了本文方法的可行性,同時(shí)與其他相關(guān)方法比較,對(duì) R2L和U2L等特征屬性不明顯的攻擊取得較好的檢測效果,對(duì)直覺模糊理論在網(wǎng)絡(luò)信息安全領(lǐng)域應(yīng)用進(jìn)行了有益的探索。直覺模糊理論在異常檢測方面的研究目前還停留在線下檢測,如何應(yīng)用于線上即時(shí)檢測還需要進(jìn)一步深入研究。
表7 異常檢測結(jié)果
表8 算法對(duì)比結(jié)果(%)
[1] Dimitris K and Elpiniki I. Intuitionistic fuzzy reasoning with cognitive maps[C]. Proceedings of the IEEE International Conference on Fuzzy Systems, Taipei, China, 2011: 821-827.
[2] Chen Cheng-hung. Compensatory neural fuzzy networks with rule-based cooperative differential evolution for nonlinear system control[J]. Nonlinear Dynamics, 2014, 75(1): 355-366.
[3] Lei Yang, Lei Ying-jie, and Kong Wei-wei. Technique for target recognition based on intuitionistic fuzzy reasoning[J].IET Signal Processing, 2012, 6(3): 255-263.
[4] Mitchell H B. Pattern recognition using type-II fuzzy sets[J].Information Sciences, 2005, 170(2/4): 409-418.
[5] Hong Peng, Jun Wang, Mario J P J, et al.. Fuzzy reasoning spiking neural P system for fault diagnosis[J]. Information Sciences, 2013, 235: 106-116.
[6] Luigi L and Larbi B. Using multiple uncertain examples and adaptative fuzzy reasoning to optimize image characterization[J]. Knowledge Based System, 2007, 20(3):266-276.
[7] 雷英杰, 王寶樹, 王毅. 基于直覺模糊推理的威脅評(píng)估方法[J].電子與信息學(xué)報(bào), 2007, 29(9): 2077-2081.Lei Ying-jie, Wang Bao-shu, and Wang Yi. Techniques for threat assessment based on intuitionistic fuzzy reasoning[J].Journal of Electronics & Information Technology, 2007, 29(9):2077-2081.
[8] 雷英杰, 王寶樹, 王毅. 基于直覺模糊決策的戰(zhàn)場態(tài)勢評(píng)估方法[J]. 電子學(xué)報(bào), 2006, 34(12): 1275-1279.Lei Ying-jie, Wang Bao-shu, and Wang Yi. Techniques for battlefield situation assessment based on intuitionistic fuzzy decision[J]. Acta Electronica Sinica, 2006, 34(12): 1275-1279.
[9] Hwang C M, Yang M S, Hung W L, et al.. A similarity measure of intuitionistic fuzzy sets based on the Sugeno integral with its application to pattern recognition[J]. Information Sciences, 2012, 189: 93-109.
[10] Boran F E and Akay D. A biparametric similarity measure on intuitionistic fuzzy sets with applications to pattern recognition[J]. Information Sciences, 2014, 255: 45-57.
[11] 王毅, 劉三陽, 張文, 等. 基于包含度的直覺模糊相似度量推理方法[J]. 系統(tǒng)工程與電子技術(shù), 2014, 36(3): 497-500.Wang Yi, Liu San-yang, Zhang Wen, et al.. Intuitionistic fuzzy similarity measures reasoning method based on inclusion degrees[J]. Systems Engineering and Electronics,2014, 36(3): 497-500.
[12] 嚴(yán)宣輝. 應(yīng)用疫苗接種策略的免疫入侵檢測模型[J]. 電子學(xué)報(bào), 2009, 37(4): 780-785.Yan Xuan-hui. An artificial immune-based intrusion detection model using vaccination strategy[J]. Acta Electronica Sinica, 2009, 37(4): 780-785.
[13] Kuang F J , Xu W H, and Zhang S Y. A novel hybrid KPCA and SVM with GA model for intrusion detection[J]. Applied Soft Computing, 2014, 18(5): 178-184.
[14] Abadeh M S, Mohamadi H, and Habibi J. Design and analysis of genetic fuzzy systems for intrusion detection in computer networks[J]. Expert Systems with Applications,2011, 38(6): 7067-7075.
[15] Karami A and Zapata M G. A fuzzy anomaly detection system based on hybrid PSO-Kmeans algorithm in content-centric networks[J]. Neurocomputing, 2014, 149(3):1253-1269.
[16] Hettich S and Bay S D. KDD cup 1999 data[OL].http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html,1999.
[17] Guo S Q, Gao C, Yao J, et al. An intrusion detection model based on improved random forests algorithm[J]. Journal of Software, 2005, 16(8): 1490-1498.