摘要:計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展給現(xiàn)代社會(huì)人們的生活、學(xué)習(xí)和工作帶來了巨大的變化,為人們提供了極大的便利,改變了人們交流方式。但是與此同時(shí),網(wǎng)絡(luò)病毒的出現(xiàn)嚴(yán)重影響計(jì)算機(jī)的正常使用,對(duì)用戶信息安全也同樣構(gòu)成了嚴(yán)重威脅,因此防范網(wǎng)絡(luò)病毒已成為當(dāng)前建立網(wǎng)絡(luò)安全屏障的關(guān)鍵環(huán)節(jié)。本文將詳細(xì)討論數(shù)據(jù)挖掘的相關(guān)內(nèi)容以及它在計(jì)算機(jī)網(wǎng)絡(luò)病毒防御應(yīng)用中起到的作用。
關(guān)鍵詞:數(shù)據(jù)挖掘 計(jì)算機(jī) 網(wǎng)絡(luò)病毒 防范實(shí)踐
Practical Analysis of Data Mining Technology in Preventing Computer Network Virus
YU Zhigang
(Wuhan Polytechnic, Wuhan, Hubei Province, 430074 China)
Abstract: The development of computer network technology has brought tremendous changes to people's life, study and work in modern society, has provided people with great convenience, and has changed the way people communicate. But at the same time, the emergence of network viruses has also seriously affected people's normal use of computers and also poses a serious threat to user information security. Therefore, preventing network virus has become the key link of establishing network security barrier. This paper will discuss the related content of data mining and its role in computer network virus defense in detail.
Key Words: Data mining; Computer; Network virus; Prevention practice
計(jì)算機(jī)網(wǎng)絡(luò)病毒本質(zhì)上是一種惡意侵略性的可執(zhí)行代碼。在計(jì)算機(jī)網(wǎng)絡(luò)中快速感染和傳播的過程中,通過用戶系統(tǒng)快速掃描其所有信息,然后進(jìn)行惡意破壞和信息竊取。與現(xiàn)有的病毒類型相比,網(wǎng)絡(luò)病毒一般是利用計(jì)算機(jī)網(wǎng)絡(luò)和系統(tǒng)的安全漏洞直接入侵用戶終端。計(jì)算機(jī)網(wǎng)絡(luò)本身非常開放,可控性非常差,網(wǎng)絡(luò)病毒以網(wǎng)絡(luò)為媒介,加快傳播速度,擴(kuò)大傳播范圍,惡意竊取部分用戶的詳細(xì)信息,給用戶造成了巨大的經(jīng)濟(jì)損失。隨著信息化水平的不斷提高,病毒的破壞力也越來越大?;诖?,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于計(jì)算機(jī)網(wǎng)絡(luò)病毒的預(yù)防顯得尤為必要。
1 計(jì)算機(jī)網(wǎng)絡(luò)病毒的危害性
病毒的傳播范圍廣泛且迅速,通過互聯(lián)網(wǎng)傳播,使用多種方法故意破壞和入侵計(jì)算機(jī)網(wǎng)絡(luò)。計(jì)算機(jī)網(wǎng)絡(luò)病毒的重要傳播方式主要通過非法網(wǎng)站頁面、系統(tǒng)漏洞和電子郵件。
網(wǎng)絡(luò)病毒具有非常高的破壞力。網(wǎng)絡(luò)病毒的存在依賴于黑客、木馬等相關(guān)技術(shù),具有很強(qiáng)的破壞性,該病毒種類繁多,在網(wǎng)絡(luò)運(yùn)行環(huán)境中難以檢測,極有可能導(dǎo)致計(jì)算機(jī)中存儲(chǔ)的重要信息泄露、重要數(shù)據(jù)丟失或計(jì)算機(jī)系統(tǒng)癱瘓,破壞計(jì)算機(jī)網(wǎng)絡(luò)的穩(wěn)定和安全性。
病毒種類多,變化快。網(wǎng)絡(luò)病毒大多易于制造和產(chǎn)生,許多病毒是在高級(jí)程序的幫助下編寫的,通過簡單的命令更改便可以創(chuàng)建新的網(wǎng)絡(luò)病毒,因此其類型很多并且存在非常大的不確定性。
病毒的針對(duì)性較強(qiáng)。而網(wǎng)絡(luò)病毒具有一定的攻擊性和目的性。隨著它開始走向商業(yè)盈利,個(gè)別網(wǎng)絡(luò)病毒制造者通過病毒入侵他人電腦而獲取非法利益[1]。
2數(shù)據(jù)挖掘技術(shù)
2.1基本含義
數(shù)據(jù)挖掘技術(shù),是指利用數(shù)據(jù)分類、聚類、分析等方法,在病毒數(shù)據(jù)中發(fā)現(xiàn)特定規(guī)律的手段,主要是準(zhǔn)備數(shù)據(jù),查找規(guī)律,表示規(guī)律,一旦確定了數(shù)據(jù)挖掘模式,相應(yīng)挖掘引擎就可以根據(jù)數(shù)據(jù)庫需求對(duì)收集到的數(shù)據(jù)進(jìn)行分析,然后進(jìn)行詳細(xì)的分類,找出數(shù)據(jù)中存在的規(guī)律,為后續(xù)分析提供依據(jù)。該技術(shù)的關(guān)鍵是數(shù)據(jù)預(yù)處理,也是最重要的步驟之一,這將直接影響后續(xù)數(shù)據(jù)分析的結(jié)果。數(shù)據(jù)預(yù)處理主要是根據(jù)數(shù)據(jù)鏈接、數(shù)據(jù)凈化和變量整合以及格式轉(zhuǎn)換等組成,整個(gè)過程步驟非常復(fù)雜,不僅涉及大量的規(guī)劃和準(zhǔn)備工作,而且需要嚴(yán)格的操作步驟。
2.2數(shù)據(jù)挖掘技術(shù)對(duì)建立計(jì)算機(jī)網(wǎng)絡(luò)病毒防范系統(tǒng)的必要性
數(shù)據(jù)挖掘技術(shù)的發(fā)展和研究,被信息產(chǎn)業(yè)視為計(jì)算機(jī)網(wǎng)絡(luò)病毒防御的重中之重,它能夠構(gòu)建更可靠的防御系統(tǒng),抵御無處不在的網(wǎng)絡(luò)病毒。運(yùn)用數(shù)據(jù)挖掘技術(shù),提取重要信息,在信息挖掘過程中提取大量病毒樣本數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)的模型與數(shù)據(jù)之間的微妙關(guān)系,用來檢測某些已知的網(wǎng)絡(luò)病毒并進(jìn)行分析和預(yù)測,以產(chǎn)生主動(dòng)病毒防御的構(gòu)思[2]。此外,關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一個(gè)重要技術(shù),這能夠幫助建立網(wǎng)絡(luò)病毒防御系統(tǒng)。
2.3數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)病毒防御中的技術(shù)可行性
為了更好地應(yīng)用數(shù)據(jù)挖掘技術(shù),有必要對(duì)網(wǎng)絡(luò)病毒的傳播過程進(jìn)行更詳細(xì)的分析和了解,為數(shù)據(jù)挖掘技術(shù)的應(yīng)用提供相關(guān)依據(jù),同時(shí)在構(gòu)建計(jì)算機(jī)保護(hù)系統(tǒng)方面也是一個(gè)突破口。新型網(wǎng)絡(luò)病毒防御系統(tǒng)的工作原理是在網(wǎng)絡(luò)中,向本地傳輸數(shù)據(jù)包,形成數(shù)據(jù)源后,經(jīng)過預(yù)處理模塊對(duì)網(wǎng)絡(luò)信息傳輸病毒進(jìn)行處理和記錄,形成對(duì)網(wǎng)絡(luò)中相同病毒的免疫力,一旦出現(xiàn)病毒,就會(huì)觸發(fā)預(yù)警機(jī)制,創(chuàng)建防御系統(tǒng)并保護(hù)主機(jī)。
3 計(jì)算機(jī)網(wǎng)絡(luò)病毒防范重?cái)?shù)據(jù)挖掘技術(shù)的應(yīng)用實(shí)踐
3.1數(shù)據(jù)挖掘技術(shù)的組成
數(shù)據(jù)挖掘技術(shù)由5個(gè)模塊構(gòu)成,即數(shù)據(jù)源、數(shù)據(jù)挖掘、規(guī)則庫、預(yù)處理和決策模塊,這5模塊交互形成完整的數(shù)據(jù)挖掘系統(tǒng),并且進(jìn)一步作用于殺毒系統(tǒng)。
3.1.1數(shù)據(jù)源模塊
數(shù)據(jù)源模塊核心稱作抓包程序,其利用網(wǎng)絡(luò)功能將截獲的數(shù)據(jù)包發(fā)送給主處理器。其包含最原始的網(wǎng)絡(luò)數(shù)據(jù),數(shù)據(jù)包同樣包含特定的數(shù)據(jù)信息。數(shù)據(jù)源模塊中的抓包程序接收數(shù)據(jù)包后將其傳遞給預(yù)處理模塊,以達(dá)到數(shù)據(jù)預(yù)處理目的。
3.1.2 預(yù)處理模塊
預(yù)處理模塊將數(shù)據(jù)源模塊的工作進(jìn)一步深化,其接收來自于數(shù)據(jù)源模塊傳來的數(shù)據(jù)信息,然后通過分析、變換和處理對(duì)數(shù)據(jù)進(jìn)行拆分和分類,使其能夠被轉(zhuǎn)換、識(shí)別和處理,預(yù)處理模塊工作后,既可以減少挖掘數(shù)據(jù)的處理時(shí)間,又能縮短分析時(shí)間,提高數(shù)據(jù)的識(shí)別率和準(zhǔn)確率[3]。
3.1.3 規(guī)則庫模塊
網(wǎng)絡(luò)病毒出現(xiàn)后,規(guī)則庫模塊利用數(shù)據(jù)挖掘、功能識(shí)別和聚類分析來達(dá)到獲取規(guī)則集的目的。在規(guī)則集中出現(xiàn)的網(wǎng)絡(luò)病毒,可以在挖掘指導(dǎo)工作中將記錄應(yīng)用,通過分析網(wǎng)絡(luò)中的潛在病毒,獲得有效的病毒防護(hù)。此外,還可利用聚類分析來甄別網(wǎng)絡(luò)病毒,在已經(jīng)分好但還未顯示的數(shù)據(jù)集中使用聚類分析,可以將數(shù)據(jù)集匯總成更多的組,然后再劃分差異度最小的一組數(shù)據(jù)數(shù)據(jù)。不同群體之間的差異會(huì)比較大,對(duì)于數(shù)據(jù)挖掘技術(shù)來說,主要是聚類分析數(shù)據(jù),其不僅有效完善了數(shù)據(jù)挖掘規(guī)則庫,還提供了準(zhǔn)確有效的數(shù)據(jù)支持和分析網(wǎng)絡(luò)病毒特征。
3.1.4 數(shù)據(jù)挖掘模塊
在數(shù)據(jù)挖掘技術(shù)的整體配置中,數(shù)據(jù)挖掘模塊是比較重要的組件之一,數(shù)據(jù)挖掘模塊由挖掘算法和事件庫組成,挖掘算法可以通過采集數(shù)據(jù)來配置事件庫,然后對(duì)數(shù)據(jù)進(jìn)行分析和匯總,形成規(guī)則特征清晰的結(jié)果。
3.1.5 決策模塊
決策模塊利用數(shù)據(jù)挖掘構(gòu)建數(shù)據(jù)庫,并根據(jù)數(shù)據(jù)匹配緊密連接規(guī)則庫。如果數(shù)據(jù)庫后的某些信息與規(guī)則庫的關(guān)聯(lián)度較高,則可能表明決策模塊中的信息具有一定的病毒特征,容易受到感染。如果規(guī)則數(shù)據(jù)與結(jié)果數(shù)據(jù)庫中的數(shù)據(jù)不匹配,表明該數(shù)據(jù)包中含有一種稱為新型規(guī)則的新型病毒,那么這個(gè)病毒就必須被引入到規(guī)則庫中[4]。
3.2數(shù)據(jù)挖掘技術(shù)與病毒防御系統(tǒng)之間的聯(lián)動(dòng)應(yīng)用
3.2.1 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則表示某類在數(shù)據(jù)庫中被關(guān)聯(lián)的知識(shí)。換句話說,如果數(shù)據(jù)庫中兩個(gè)或多個(gè)變量的值之間存在一定的規(guī)律,則表明這些數(shù)據(jù)之間存在一定的相關(guān)性。數(shù)據(jù)挖掘技術(shù)主要分為三種類型:因果關(guān)系、時(shí)間序列關(guān)聯(lián)和簡單關(guān)聯(lián)。以上提到的關(guān)聯(lián),就是找到數(shù)據(jù)庫中存在的關(guān)聯(lián)網(wǎng)絡(luò),挖掘數(shù)據(jù)之間的關(guān)系,找到其之間的存在的關(guān)聯(lián)規(guī)則。
3.2.2 聚類分析
聚類分析需要對(duì)獲取的數(shù)據(jù)包進(jìn)行分解,將它們分成不同的組,每個(gè)組分類都有一些相似的特征,而組與組之間又具有不同的特征。通過對(duì)數(shù)據(jù)進(jìn)行聚類,可以及時(shí)識(shí)別出數(shù)據(jù)分布的密度,從而全面呈現(xiàn)全局分布格局,反映了數(shù)據(jù)屬性之間的關(guān)系[5]。
3.2.3 分類分析
分類分析是指將個(gè)體按類別包含在幾個(gè)預(yù)設(shè)的分類中。分類的目的是利用各種統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法構(gòu)建分類模型,然后使用特定的類映射數(shù)據(jù)庫根據(jù)分類規(guī)則對(duì)不同數(shù)據(jù)進(jìn)行分類[6]。
3.2.4異類分析
異類分析就是分析數(shù)據(jù)庫中的數(shù)據(jù)與其他數(shù)據(jù)是否存在明顯差異和偏差。這里要分析的數(shù)據(jù)也是偏離現(xiàn)有模型的數(shù)據(jù),主要涉及異常值或孤立值的檢測和分析,在這個(gè)過程中往往會(huì)出現(xiàn)悖理結(jié)果,因此在分析孤立點(diǎn)的過程中,可能會(huì)發(fā)現(xiàn)價(jià)值更高的數(shù)據(jù)。
3.2.5 序列分析
序列分析就是一種對(duì)數(shù)據(jù)進(jìn)行動(dòng)態(tài)處理的統(tǒng)計(jì)方法,依賴于對(duì)隨機(jī)數(shù)據(jù)序列的存在進(jìn)行獨(dú)特的周期性分析,以找出事件庫中可能存在的病毒數(shù)據(jù)序列。
4 結(jié)語
綜上所述,數(shù)據(jù)挖掘技術(shù)由于其獨(dú)特的優(yōu)勢,在計(jì)算機(jī)病毒防御系統(tǒng)中發(fā)揮著非常重要的作用,可以保證網(wǎng)絡(luò)信息的安全穩(wěn)定,不存在信息泄露。相關(guān)人士有必要進(jìn)一步研究拓展數(shù)據(jù)挖掘技術(shù)在計(jì)算機(jī)病毒防護(hù)中的具體應(yīng)用,構(gòu)建完善的網(wǎng)絡(luò)病毒防御體系。
參考文獻(xiàn)
[1]汪小霞.大數(shù)據(jù)時(shí)代人工智能在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的應(yīng)用[J].計(jì)算機(jī)產(chǎn)品與流通,2019(6):42-42.
[2]李靜毅,楊雪梅,晁曉潔.大數(shù)據(jù)分析下攻擊性數(shù)據(jù)超前安全預(yù)警仿真[J].計(jì)算機(jī)仿真,2019,36(5):226-229.
[3]葉南均.淺析數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].信息記錄材料,2019,20(6):137-138.
[4] 楊雄,李曉芳,謝光前,等.基于igraph的網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)嶒?yàn)建設(shè)方案[J].電腦知識(shí)與技術(shù):學(xué)術(shù)版,2019(7X):29-31.
[5] 趙雅靚.基于張量的大數(shù)據(jù)多聚類及其安全和高效方法研究[D].武漢:華中科技大學(xué),2019.
[6] M, A, Poltavtseva, et al. Modeling Big Data Management Systems in Information Security[J]. Automatic Control and Computer Sciences, 2019, 53(8):895-902.
作者簡介:余志剛(1982 年6月),男,湖北浠水人 ,漢族,本科 ,實(shí)驗(yàn)師,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),大數(shù)據(jù)挖掘。