遲江波, 劉利波
(新疆輕工職業(yè)技術(shù)學(xué)院 繼續(xù)教育學(xué)院, 烏魯木齊 830021)
計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)在人們?nèi)粘9ぷ骷吧钪械膽?yīng)用不斷普及,給人們生活水平的提高和社會的進(jìn)步發(fā)展帶來了巨大的改變,由此網(wǎng)絡(luò)安全問題也逐漸成為人們研究的熱點(diǎn)。目前,在網(wǎng)絡(luò)安全問題的表現(xiàn)中,一個(gè)主要的表現(xiàn)就是網(wǎng)絡(luò)異常變化。部分網(wǎng)絡(luò)安全學(xué)者認(rèn)為,網(wǎng)絡(luò)入侵或?qū)е戮W(wǎng)絡(luò)流量異常,因此網(wǎng)絡(luò)異常檢測的核心,就是網(wǎng)絡(luò)異常檢測模型。目前,針對網(wǎng)絡(luò)異常檢測模型的選擇中,比較常見的算法包括小波分析、SVM支持向量機(jī)、決策樹等算法。如吳銳(2017)等則提出了一種基于SVM的電信網(wǎng)絡(luò)異常檢測方法,從而通過SVM的分類,完成對網(wǎng)絡(luò)異常的監(jiān)測[1];崔嘉(2017)則采用決策樹判斷方法,完成了對P2P網(wǎng)絡(luò)異常的監(jiān)測[2]。本文則結(jié)合當(dāng)前的網(wǎng)絡(luò)異常檢測模型,提出一種基于動態(tài)Vague集的網(wǎng)絡(luò)流量異常監(jiān)控,并對該方法的可行性進(jìn)行了詳細(xì)的驗(yàn)證。
自模糊集理論誕生以來,通常將其應(yīng)用于對不確定性信息的處理,即在信息不完備的情況下,采用模糊集的方式來進(jìn)行描述。但由于模糊集僅能描述集合中各元素對于該集合的隸屬度,因此難以反映對命題的否定與模糊程度。針對這一問題,K. Atanassov于上世紀(jì)八十年代提出直覺模糊集理論,即Vague Set理論。該理論的核心思想是通過構(gòu)建隸屬度與非隸屬度來計(jì)算得到對命題的支持及反對的度量[3-5]。在本研究中,討論的是在流數(shù)據(jù)不完備的情況下對網(wǎng)絡(luò)異常進(jìn)行判斷,即可以采用直覺模糊集的方式,完成對網(wǎng)絡(luò)異常的描述,進(jìn)而選擇此異常方法。由此,對于任意x∈U,若可計(jì)算出{〈x,μA(x),νA(x)〉:x∈U},則得到一個(gè)論域U上的Vague Set,其中,μA為對論域U上的命題A的支持度量,νA為反對度量,支持度量和反對度量兩者滿足以下關(guān)系,如式(1)—式(3)。
μA:U→[0,1]νA:U→[0,1]
(1)
μA(x)+νA(x)≤1
(2)
πA(x)=1-μA(x)-νA(x)
(3)
式(3)中,πA(x)表示對論域U上的命題A認(rèn)知的不確定性。
綜上所述,Vague集就是通過0~1之間的兩個(gè)數(shù)定義一個(gè)區(qū)間,描述反映所收集的信息對命題A的支持度量與反對度量,從而為決策者提供有力的信息支持。
目前,雖然部分網(wǎng)絡(luò)異常流量監(jiān)控模型取得好的檢測效果,但是在流數(shù)據(jù)如果不完備的情況下,赫熙煦(2018)認(rèn)為傳統(tǒng)模型很容易造成識別率低的問題,從而會導(dǎo)致對異常檢測的誤判,最終不利于網(wǎng)絡(luò)異常的監(jiān)測[6]。同時(shí),在異常檢測中,考慮到時(shí)間因素是分析及解決問題的關(guān)鍵維度之一,對規(guī)則或知識的變化有著極大的影響作用。對此,在本文中則結(jié)合時(shí)間溫度,進(jìn)而構(gòu)成一個(gè)動態(tài)Vague集,然后運(yùn)用認(rèn)知模型中的真假隸屬函數(shù)來完成對Vague集數(shù)的構(gòu)建。
假設(shè)時(shí)間變量為t,動態(tài)Vague變量為α(t)=μα(t),να(t),πα(t)),對于在確定的時(shí)間變量t下,滿足以下關(guān)系如式(4)。
μα(t)∈[0,1],να(t)∈[0,1],μα(t)+να(t)≤1,
πα(t)=1-μα(t)-να(t)
(4)
從上述定義可以看到,假設(shè)有t=t1,t2,…,tp個(gè)時(shí)間段,則得到p個(gè)Vague集數(shù)α(t1),α(t2),…,α(tp)。而通過以上的定義,得到了一個(gè)關(guān)于時(shí)間因素的Vague集。
除了時(shí)間因素以外,事件發(fā)生頻度同樣是分析及解決問題的關(guān)鍵維度之一。比如通過統(tǒng)計(jì)在同一個(gè)IP地址下出現(xiàn)攻擊的次數(shù),那么我們可以判斷其發(fā)生網(wǎng)絡(luò)異常的概率。因此,本文則引入頻度因子,以挖掘網(wǎng)絡(luò)運(yùn)行中發(fā)生異常的潛在規(guī)律或者是因果關(guān)系。而在頻度因子中,平均間隔時(shí)間t0和平均次數(shù)n0是衡量頻度的重要指標(biāo)。頻度動態(tài)因子計(jì)算為式(5)[7-10]。
FParamdynamic=
(5)
式中,t0為某類事件的平均發(fā)生間隔,n0該類事件平均發(fā)生次數(shù)。
為提高異常監(jiān)控識別判斷的準(zhǔn)確率,引入事件相關(guān)因子。在相關(guān)因子計(jì)算中,相關(guān)聯(lián)度r與關(guān)聯(lián)頻度f是關(guān)鍵參數(shù)。前者描述不同事件間的關(guān)聯(lián)性,與后者結(jié)合得到相關(guān)因子,以提高判別的準(zhǔn)確性。具體計(jì)算為式(6)。
RParamdynamic=
(6)
通過以上的定義,為當(dāng)前Vague集的描述增加了一個(gè)新的角度。而從認(rèn)知理論的角度認(rèn)為,任意事件都是獨(dú)立的,在對事件的分析中,我們采用時(shí)間因素和相關(guān)因素作為加權(quán)因子,從而對事件進(jìn)行分析。因此,在對動態(tài)Vague集認(rèn)知模型的構(gòu)建中,由基礎(chǔ)認(rèn)知集數(shù)和動態(tài)認(rèn)知權(quán)值來共同對事件進(jìn)行描述,以提高識別的準(zhǔn)確率。
基礎(chǔ)認(rèn)知Vague集數(shù)定義為式(7)、式(8)[11-13]。
{〈x,μC(x),νC(x)〉:x∈U}
(7)
動態(tài)認(rèn)知的權(quán)值:
α(t)=(χ(t),λ(t))
(8)
動態(tài)認(rèn)知為一個(gè)整體函數(shù),因此在計(jì)算的過程中,需要對基礎(chǔ)認(rèn)知Vague集數(shù)進(jìn)行修正。式(8)中,χ(t)和λ(t)分別描述了動態(tài)認(rèn)知對于真實(shí)隸屬函數(shù)和虛假隸屬函數(shù)的證據(jù)支持度。
將基礎(chǔ)認(rèn)知與動態(tài)認(rèn)知結(jié)合后,得到動態(tài)認(rèn)知Vague集數(shù),以此反映對最終決策信息的支持度式(9)。
Vaguedynamic={1-(1-μC(x))χ(t),νC(x)λ(t),
(1-μC(x))χ(t)-νC(x)λ(t)}
(9)
由此,通過以上的構(gòu)建, 我們將動態(tài)認(rèn)知的Vague 集網(wǎng)絡(luò)異常監(jiān)控算法設(shè)計(jì)為如圖1所示。
圖1 基于動態(tài)認(rèn)識的Vague集網(wǎng)絡(luò)異常監(jiān)控算法
為了驗(yàn)證上述算法的有效性,本文以比較傳統(tǒng)的Kddcup99數(shù)據(jù)集進(jìn)行挖掘,然后使用IPv6實(shí)際的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行分析,并將其與部分廠商的監(jiān)測結(jié)果進(jìn)行對比,以驗(yàn)證上述算法的可行性。
Kddcup99數(shù)據(jù)集目前普遍應(yīng)用于網(wǎng)絡(luò)安全算法的驗(yàn)證中,而為了驗(yàn)證動態(tài)Vague算法,以當(dāng)前主流的SVM分類算法來進(jìn)行比較。評價(jià)指標(biāo)則選擇準(zhǔn)確識別率和運(yùn)行時(shí)間。在試驗(yàn)平臺選擇方面,使用酷睿i7,內(nèi)存大小8G的windows7操作系統(tǒng)作為試驗(yàn)平臺。通過對Kddcup99數(shù)據(jù)的預(yù)處理,對數(shù)據(jù)進(jìn)行離散化,進(jìn)而得到服從正態(tài)分布的數(shù)據(jù)集[14-16]。同時(shí)分別應(yīng)用動態(tài)Vague算法和SVM算法對網(wǎng)絡(luò)流量異常數(shù)據(jù)進(jìn)行識別,從而得到表1和表2的結(jié)果。
表1 識別準(zhǔn)確率數(shù)據(jù)
表2 運(yùn)行執(zhí)行時(shí)間
從以上結(jié)果看到:與SVM相比,本文提出的動態(tài)Vague算法的運(yùn)行時(shí)間更長,說明本文算法在運(yùn)行時(shí)間上,不具備其優(yōu)勢。
在不完備Kddcup99數(shù)據(jù)集的情況下對算法進(jìn)行驗(yàn)證,得到在缺失率分別為10%、25%,采樣率分別為10%、30%下的實(shí)驗(yàn)結(jié)果,具體如表3所示。
表3 不完備Kddcup99數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
從表3所示可以看到:在同一缺失率的情況下,SVM與動態(tài)Vague算法在10%、25%采樣率下的準(zhǔn)確率只存在極小的差異;相較而言,在10%采樣率下的準(zhǔn)確率略低于在30%采樣率下的準(zhǔn)確率;SVM在25%缺失率與10%缺失率下的準(zhǔn)確率相比,有著較大的下降幅度;動態(tài)Vague在不同缺失率的情況下,準(zhǔn)確率未出現(xiàn)顯著變化。由此說明,本文構(gòu)建的算法在缺失率越大的情況下,其結(jié)果差異不大,說明其準(zhǔn)確率越高。
上述的分析是以Kddcup99數(shù)據(jù)集作為試驗(yàn),缺乏對真實(shí)環(huán)境下的網(wǎng)絡(luò)流量異常監(jiān)控。對此,本文則以我職業(yè)院校在2018年1月~2018年4月的真實(shí)流量數(shù)據(jù)作為基礎(chǔ),分別運(yùn)用SVM算法和本文構(gòu)建的算法進(jìn)行對比,如圖3所示。
圖3 不同算法下的識別記錄數(shù)
通過上述的對比看出,本文構(gòu)建的算法與網(wǎng)絡(luò)安全設(shè)備識別的網(wǎng)絡(luò)異常記錄非常接近,說民本文算法的有效性。
本文針對現(xiàn)有網(wǎng)絡(luò)流量異常監(jiān)控方法在不完備數(shù)據(jù)和流數(shù)據(jù)處理方面所存在的問題,在動態(tài)Vague集基礎(chǔ)上,構(gòu)建了頻度因子與相關(guān)因子,得到動態(tài)認(rèn)知Vague 集。該方法能夠充分考慮到時(shí)間因素的影響,并通過相關(guān)度來提高識別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果說明,該算法能夠準(zhǔn)確有效地處理不完備數(shù)據(jù)和流數(shù)據(jù)。此外,該算法在運(yùn)行效率方面仍有較大的優(yōu)化改進(jìn)空間。