文/曾芳香
計(jì)算機(jī)網(wǎng)絡(luò)病毒防御中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
文/曾芳香
現(xiàn)代計(jì)算機(jī)網(wǎng)絡(luò)的迅速發(fā)展人們的生活發(fā)生了翻天覆地的變化,它在給人們帶來(lái)便利的同時(shí),網(wǎng)絡(luò)安全問(wèn)題也給人們帶來(lái)了一定的困擾。計(jì)算機(jī)網(wǎng)絡(luò)使用過(guò)程中常常會(huì)有一些網(wǎng)絡(luò)病毒侵入,這些網(wǎng)絡(luò)病毒的入侵對(duì)人們正常使用網(wǎng)絡(luò)造成了嚴(yán)重的影響,會(huì)造成用戶(hù)的一些重要文件丟失或者用戶(hù)的一些重要信息將被竊取。
計(jì)算機(jī) 網(wǎng)絡(luò)病毒 防御 數(shù)據(jù)挖掘技術(shù)
在目前計(jì)算機(jī)網(wǎng)絡(luò)使用過(guò)程中,網(wǎng)絡(luò)病毒對(duì)人們正常的使用計(jì)算機(jī)網(wǎng)絡(luò)造成了嚴(yán)重的影響。因此,在計(jì)算機(jī)網(wǎng)絡(luò)中務(wù)必要選擇科學(xué)先進(jìn)的技術(shù)防御計(jì)算機(jī)網(wǎng)絡(luò)中的病毒,最大程度的阻止網(wǎng)絡(luò)病毒帶來(lái)的不利影響。
網(wǎng)絡(luò)和網(wǎng)絡(luò)病毒之間聯(lián)系是非常密切的,計(jì)算機(jī)網(wǎng)絡(luò)病毒的傳播范圍非常廣泛,通過(guò)多種途徑入侵到計(jì)算機(jī)網(wǎng)絡(luò)并對(duì)其造成破壞,計(jì)算機(jī)網(wǎng)絡(luò)病毒主要通過(guò)電子郵件、不良網(wǎng)頁(yè)和系統(tǒng)漏洞就行傳播,并且網(wǎng)絡(luò)病毒擴(kuò)散的速度非???。
通常情況下,計(jì)算機(jī)網(wǎng)絡(luò)病毒都是依賴(lài)黑客技術(shù)、木馬技術(shù)等相關(guān)技術(shù)才存在的,這種類(lèi)型的病毒通常表現(xiàn)出混合型的特點(diǎn),在網(wǎng)絡(luò)運(yùn)行環(huán)境下很難發(fā)現(xiàn)這種病毒的存在。這種類(lèi)型的病毒具有很強(qiáng)的破壞性,這種病毒很可能會(huì)使用戶(hù)的一些重要數(shù)據(jù)或文件丟失,還有可能使用戶(hù)的重要信息泄露,嚴(yán)重的還會(huì)使整個(gè)計(jì)算機(jī)系統(tǒng)癱瘓,對(duì)計(jì)算機(jī)網(wǎng)絡(luò)的安全和穩(wěn)定的破壞程度極大。
目前計(jì)算機(jī)網(wǎng)絡(luò)病毒的種類(lèi)比較多,因?yàn)樵S多的計(jì)算機(jī)網(wǎng)絡(luò)病毒都是通過(guò)計(jì)算機(jī)高級(jí)程序編寫(xiě)制造的,這就使得網(wǎng)絡(luò)病毒很容易進(jìn)行生產(chǎn)。如果有人改變編程中的一些簡(jiǎn)單的指令對(duì)病毒進(jìn)行修改或者是重新編寫(xiě)病毒的程序,就會(huì)產(chǎn)生出許多的新病毒,這些計(jì)算機(jī)病毒是不確定的且變化性很大。
數(shù)據(jù)挖掘技術(shù)是一種計(jì)算機(jī)網(wǎng)絡(luò)病毒的防御技術(shù),該技術(shù)是通過(guò)對(duì)數(shù)據(jù)進(jìn)行分類(lèi)、聚類(lèi)和分析尋找計(jì)算機(jī)網(wǎng)絡(luò)病毒數(shù)據(jù)間存在的具體規(guī)律,然后對(duì)計(jì)算機(jī)網(wǎng)絡(luò)病毒進(jìn)行防御。因此,數(shù)據(jù)挖掘技術(shù)主要包括數(shù)據(jù)的準(zhǔn)備、尋找規(guī)律和表示規(guī)律三個(gè)步驟。
3.1.1 數(shù)據(jù)源模塊
數(shù)據(jù)源模塊主要的程序來(lái)源是抓包程序,它是在網(wǎng)絡(luò)向主機(jī)系統(tǒng)發(fā)送數(shù)據(jù)過(guò)程中截獲的數(shù)據(jù)包。最原始的網(wǎng)絡(luò)數(shù)據(jù)包就存在于數(shù)據(jù)源模塊中,也就是說(shuō)關(guān)于某個(gè)數(shù)據(jù)庫(kù)信息的數(shù)據(jù)結(jié)構(gòu)姐存在于數(shù)據(jù)源模塊中。抓包程序接到數(shù)據(jù)包后,數(shù)據(jù)就會(huì)進(jìn)入到下一個(gè)程序即預(yù)處理模塊。
3.1.2 預(yù)處理模塊
數(shù)據(jù)從數(shù)據(jù)源模塊到預(yù)處理模塊后進(jìn)行數(shù)據(jù)的預(yù)處理階段,該階段是整個(gè)數(shù)據(jù)挖掘過(guò)程的基礎(chǔ)階段。預(yù)處理模塊是將之前的數(shù)據(jù)變換、分析轉(zhuǎn)換成能夠進(jìn)行識(shí)別和處理的數(shù)據(jù),方便后面數(shù)據(jù)的處理。數(shù)據(jù)的預(yù)處理能夠有效的縮短數(shù)據(jù)分析和數(shù)據(jù)處理的時(shí)間。
3.1.3 規(guī)則庫(kù)模塊
規(guī)則庫(kù)模塊主要用于存儲(chǔ)規(guī)則集,這些規(guī)則集是計(jì)算機(jī)出現(xiàn)網(wǎng)絡(luò)病毒后通過(guò)一些特征識(shí)別,聚類(lèi)分析或數(shù)據(jù)挖掘獲得的。將規(guī)則集對(duì)計(jì)算機(jī)網(wǎng)絡(luò)病毒信息的記錄應(yīng)用到數(shù)據(jù)挖掘工作中,就能可以分析網(wǎng)絡(luò)中潛在的病毒,從而起到病毒防御的作用。此外,規(guī)則庫(kù)模塊還可以鑒別計(jì)算機(jī)網(wǎng)絡(luò)病毒。將聚類(lèi)分析應(yīng)用在未作標(biāo)記的數(shù)據(jù)集中,不數(shù)據(jù)集分成多組數(shù)據(jù),通過(guò)各數(shù)據(jù)之間的差異度對(duì)計(jì)算機(jī)網(wǎng)絡(luò)病毒進(jìn)行鑒定。
3.1.4 數(shù)據(jù)挖掘模塊
數(shù)據(jù)挖掘模塊主要是使用數(shù)據(jù)挖掘的算法收集數(shù)據(jù)從而形成事件庫(kù),然后分析事件庫(kù)的數(shù)據(jù),將分析后的數(shù)據(jù)交給決策模塊進(jìn)行處理。數(shù)據(jù)挖掘模塊是數(shù)據(jù)挖掘技術(shù)的核心部分。
3.1.5 決策模塊
決策模塊主要負(fù)責(zé)匹配數(shù)據(jù)挖掘的結(jié)果和規(guī)則庫(kù)中的規(guī)則,規(guī)則庫(kù)中的規(guī)則是計(jì)算機(jī)蠕蟲(chóng)病毒基本特征的表現(xiàn)。如果挖掘數(shù)據(jù)的結(jié)果和規(guī)則模塊匹配,就證明數(shù)據(jù)包中存在計(jì)算機(jī)蠕蟲(chóng)病毒,已知的計(jì)算機(jī)蠕蟲(chóng)病毒就會(huì)被發(fā)現(xiàn);如果挖掘數(shù)據(jù)的結(jié)果和規(guī)則模塊不匹配,發(fā)現(xiàn)計(jì)算機(jī)未知蠕蟲(chóng)病毒的警報(bào)由預(yù)防模塊發(fā)出,這種未知的計(jì)算機(jī)蠕蟲(chóng)病毒就會(huì)形成一種新的計(jì)算機(jī)網(wǎng)絡(luò)病毒規(guī)則并納入規(guī)則庫(kù)。
3.2.1 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則即某一種類(lèi)數(shù)據(jù)中一定存在能被發(fā)現(xiàn)的知識(shí),一般在多個(gè)變量中取值時(shí)存在某些規(guī)律,那么能證明這些數(shù)據(jù)存在一定聯(lián)系。數(shù)據(jù)挖掘技術(shù)亦存在關(guān)聯(lián)規(guī)則,可以簡(jiǎn)單分成簡(jiǎn)單關(guān)聯(lián)、因果關(guān)聯(lián)和時(shí)序關(guān)聯(lián)等。可以通過(guò)研究分析數(shù)據(jù)庫(kù)中存在的關(guān)聯(lián),找出各個(gè)關(guān)聯(lián)之間形成的關(guān)聯(lián)網(wǎng),然后挖掘各個(gè)數(shù)據(jù)間關(guān)聯(lián)性,從而確定數(shù)據(jù)庫(kù)中關(guān)聯(lián)規(guī)則。
3.2.2 聚類(lèi)分析
聚類(lèi)分析即將得到的數(shù)據(jù)包進(jìn)行分解,且把它分成不同組別,那么每組間分類(lèi)都會(huì)存在一種或多種相似特點(diǎn),同時(shí)每組會(huì)有明顯的不同特征。通過(guò)將數(shù)據(jù)聚類(lèi)分析,能夠快速搜尋識(shí)別出全部數(shù)據(jù)分布疏密度,還可以很好看出整體分布模式,也可以表明各組數(shù)據(jù)特征相互存在的關(guān)聯(lián)。
3.2.3 異類(lèi)分析
異類(lèi)分析的另一名稱(chēng)是孤立點(diǎn)分析。它的含義是將數(shù)據(jù)庫(kù)中相對(duì)突出的不同點(diǎn)和較其它數(shù)據(jù)偏離比較明顯的數(shù)據(jù)進(jìn)行分析。這些異類(lèi)分析的數(shù)據(jù)就是較常規(guī)模式發(fā)生偏查的數(shù)據(jù)。異類(lèi)分析內(nèi)容大概有尋找孤立點(diǎn)和通過(guò)研究分析孤立點(diǎn),找到孤立點(diǎn)往往存在不符合常規(guī)的結(jié)果,將孤立點(diǎn)進(jìn)行分析時(shí),會(huì)有較高的可能找到和常規(guī)數(shù)據(jù)相比較具有利用價(jià)值的數(shù)據(jù)。
3.2.4 序列分析
序列分析即統(tǒng)計(jì)動(dòng)態(tài)數(shù)據(jù)處理結(jié)果的一種分析方法,將隨機(jī)數(shù)據(jù)序列規(guī)律進(jìn)行研究分析,搜索事件庫(kù)中存在的病毒數(shù)據(jù)序列。進(jìn)行數(shù)據(jù)挖掘時(shí),序列分析進(jìn)行時(shí)最重要的即構(gòu)建序列模式模型,運(yùn)行數(shù)據(jù)挖掘算法搜索事件經(jīng)常發(fā)生的時(shí)間序列。數(shù)據(jù)挖掘序列分析算法實(shí)際能如下進(jìn)行:如果事件庫(kù)D,交易T和時(shí)間戳之間相互關(guān)聯(lián),交易位于(t1 , t2)區(qū)間,X,Y,Z為D中的項(xiàng)目集,序列規(guī)則可以表示為X, Y-} Z(Con-fidence,Support, Window),規(guī)則支持度為Suppor(X}J Y }J Z),置信度為Support(X U Y U Z)/Sup-port(X}J Y)。
縱觀全文可知,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)日新月異快速發(fā)展,它與人們生活工作的聯(lián)系日益緊密。計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)在給人們帶來(lái)了便利的同時(shí),它應(yīng)用時(shí)產(chǎn)生的計(jì)算機(jī)病毒很容易使計(jì)算機(jī)系統(tǒng)受到嚴(yán)重?fù)p害。那么在計(jì)算機(jī)病毒防御時(shí)應(yīng)用數(shù)據(jù)挖掘技術(shù)時(shí)很有必要的,可以有效防御抑制計(jì)算機(jī)網(wǎng)絡(luò)病毒,達(dá)到提高計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的安全性和確保計(jì)算機(jī)用戶(hù)財(cái)產(chǎn)安全的目的。
作者單位湖南藥品食品職業(yè)技術(shù)學(xué)院 湖南省長(zhǎng)沙市410208