李 楠
(福州軟件職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系 福建福州 350003)
近年來隨著網(wǎng)絡(luò)的普及,網(wǎng)絡(luò)不僅成為人們?nèi)粘I钪斜夭豢缮俚囊徊糠郑苍谄髽I(yè)的一些業(yè)務(wù)中扮演著重要的角色。電子商務(wù)就是由網(wǎng)絡(luò)經(jīng)濟(jì)發(fā)展而來的,在國內(nèi)國外都取得了飛速的發(fā)展,也使網(wǎng)絡(luò)的安全問題越發(fā)重要。
數(shù)據(jù)挖掘指的是分析網(wǎng)絡(luò)中相對不完整或者較為模糊的一些數(shù)據(jù),從中發(fā)掘一些具有潛在價(jià)值的信息和知識(shí),包括人們事先不知道的信息,基本處理過程如圖1所示。
基于Web數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息安全防范模型:作為網(wǎng)絡(luò)信息技術(shù)安全防范的綜合分析工具,主要體現(xiàn)在3個(gè)方面 (如圖2所示)[1]:①過濾器。其作用是先抽取數(shù)據(jù)庫中的一些有關(guān)數(shù)據(jù),然后用二義性的方法進(jìn)行分析比對,使這些信息保持一致性。②挖掘綜合器。這是一個(gè)挖掘驅(qū)動(dòng)的引擎裝置。其作用是根據(jù)挖掘的要求,挖掘系統(tǒng)在算法庫中選擇適當(dāng)?shù)姆椒ㄟM(jìn)行挖掘。③方法選擇專家系統(tǒng)及知識(shí)庫。這些是Web數(shù)據(jù)挖掘的重要組成部分,數(shù)據(jù)挖掘系統(tǒng)根據(jù)用戶的具體要求來選擇最有效的挖掘算法,隨著技術(shù)的發(fā)展Web知識(shí)庫也通過不斷更新的內(nèi)容和規(guī)則來提高系統(tǒng)的智能型。
圖2 基于Web數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息安全防范模型
認(rèn)識(shí)并了解Web技術(shù),明確挖掘數(shù)據(jù)庫的挖掘目標(biāo),確定信息的安全主體并建立適合的挖掘模型,首先明確Web技術(shù)的挖掘目標(biāo),確定信息安全的相關(guān)主題,然后再給挖掘目標(biāo)建立適合的挖掘模型。而挖掘目標(biāo)的確定過程主要分成三部分:①通過對用戶相關(guān)的數(shù)據(jù)和信息資源來獲得有價(jià)值的信息知識(shí)[2];②根據(jù)挖掘技術(shù)拿這些信息知識(shí)和假設(shè)進(jìn)行比對,看假設(shè)是否成立,然后收集有用的數(shù)據(jù)源,根據(jù)網(wǎng)絡(luò)安全防范規(guī)則通過抓包程序來獲取網(wǎng)絡(luò)上的數(shù)據(jù)包,之后將數(shù)據(jù)傳輸?shù)教幚頇C(jī)[2];③根據(jù)挖掘目的將原始數(shù)據(jù)進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換,轉(zhuǎn)換成Web數(shù)據(jù)挖掘的格式,最后將這些數(shù)據(jù)保存到數(shù)據(jù)倉庫中去,等待下一步的進(jìn)行。
用戶在Web頁面上所填寫的注冊信息和登錄信息等,這些信息都要交給服務(wù)器。在挖掘過程要將用戶的訪問日記和用戶登錄信息進(jìn)行整合,這樣會(huì)提高挖掘信息的準(zhǔn)確度。因?yàn)?,服?wù)器可以拿用戶的日志信息和登錄信息進(jìn)行比對,通過分析可以清楚地了解用戶行為,可以采取必要的防范措施來杜絕隱患,特別是針對用戶的基本信息方面,更要加強(qiáng)防范。
網(wǎng)站的服務(wù)器記錄的是所有用戶登陸同一網(wǎng)站的所有記錄,但代理服務(wù)器卻不同,它記錄了是所有用戶登陸所有網(wǎng)站的記錄。代理服務(wù)器是個(gè)緩存服務(wù)器,它在Web服務(wù)器和客戶瀏覽器之間起緩存功能,是一個(gè)中間服務(wù)器。它記錄了所有用戶登陸所有網(wǎng)站的大量記錄并保存起來。
Web數(shù)據(jù)挖掘在網(wǎng)絡(luò)信息安全方面的基本方法,先挖掘出用戶上網(wǎng)時(shí)的不正常的信息數(shù)據(jù),在進(jìn)行分析,分出正常信息、可疑信息和危險(xiǎn)信息,讓網(wǎng)絡(luò)信息具有合理性和有效性。在該模型中主要有以下4種挖掘方法:
關(guān)聯(lián)規(guī)律是描述數(shù)據(jù)和數(shù)據(jù)之間的相互關(guān)系,細(xì)致的說就是當(dāng)一個(gè)事物出現(xiàn)某個(gè)數(shù)據(jù)時(shí),就會(huì)引出另一個(gè)數(shù)據(jù),兩個(gè)數(shù)據(jù)之間會(huì)有一些隱藏的必然聯(lián)系。當(dāng)數(shù)據(jù)庫中累積大量的安全數(shù)據(jù)時(shí)可以分析數(shù)據(jù)中一些事件之間的關(guān)系。例如,當(dāng)管理員欲分析哪些是用戶的非正常訪問時(shí),只需將正常訪問的數(shù)據(jù)和非正常訪問的數(shù)據(jù)進(jìn)行對比,就可以準(zhǔn)確做出判斷。
分類分析是指把個(gè)體按照之前設(shè)定好的類型進(jìn)行劃分。分類的目的主要通過機(jī)械學(xué)習(xí)以及統(tǒng)計(jì)方法等對數(shù)據(jù)庫進(jìn)行模型的分類,之后把數(shù)據(jù)庫中的數(shù)據(jù)劃分到給定的類別中去,最后對數(shù)據(jù)庫中的數(shù)據(jù)分類。如果手機(jī)用戶在進(jìn)行大量訪問時(shí),入侵檢測系統(tǒng)會(huì)對入侵?jǐn)?shù)據(jù)進(jìn)行審計(jì)分類,分析出那些事正常數(shù)據(jù),那些是不正常數(shù)據(jù),這樣通過分離器能夠有效的分離新數(shù)據(jù)的類別。
這個(gè)方法是通過分解數(shù)據(jù)集,把特征相同的數(shù)據(jù)劃分為一組,其他組中的數(shù)據(jù)會(huì)有很大的區(qū)別。這種方法可以明顯的看出數(shù)據(jù)組是密集還是稀疏,可以看出整體的模式分布和每個(gè)數(shù)據(jù)之間的屬性關(guān)系。通過聚類分析可以將具有相似瀏覽模式的用戶集中到一起[3],這樣有助于在Web數(shù)據(jù)挖掘中執(zhí)行網(wǎng)絡(luò)信息安全的防范措施。
這個(gè)方法也叫孤立點(diǎn)分析法,平時(shí)所說的孤立點(diǎn)指有些數(shù)據(jù)不能劃分為一般模式里,是與正常數(shù)據(jù)明顯不同的一類數(shù)據(jù)。孤立點(diǎn)分析可以分兩個(gè)步驟,先是發(fā)現(xiàn),后是分析,孤立點(diǎn)發(fā)現(xiàn)指的是通常會(huì)發(fā)現(xiàn)一些具有一定價(jià)值的事先不知道的知識(shí);孤立點(diǎn)分析則指的是可以發(fā)現(xiàn)一些更具有價(jià)值的信息數(shù)據(jù)。通過調(diào)查發(fā)現(xiàn),在網(wǎng)絡(luò)安全防范領(lǐng)域,孤立點(diǎn)的研究前景和研究空間很大。如,從入侵上看,把比正常行為數(shù)據(jù)數(shù)量少很多的數(shù)據(jù) (也就是孤立點(diǎn))假想為入侵?jǐn)?shù)據(jù)。把孤立點(diǎn)行為當(dāng)做入侵行為,則可以把這種檢測孤立點(diǎn)技術(shù)當(dāng)作防范網(wǎng)絡(luò)安全手段,這有利于完善網(wǎng)絡(luò)安全防范系統(tǒng)。
安全審計(jì)工作就是有針對性的系統(tǒng)的對網(wǎng)絡(luò)上所產(chǎn)生的一些和安全有關(guān)的數(shù)據(jù)記錄進(jìn)行分析及統(tǒng)計(jì)的過程。安全審計(jì)是對涉及安全的事件進(jìn)行分析和記錄的過程,它所針對的安全事件有:用戶操作系統(tǒng)、用戶網(wǎng)絡(luò)活動(dòng)、系統(tǒng)應(yīng)用和服務(wù)、網(wǎng)絡(luò)行為等。Web技術(shù)可以幫助網(wǎng)絡(luò)安全的審計(jì)工作。主要的原理是通過在正常的數(shù)據(jù)來挖掘正常的網(wǎng)絡(luò)通信模式,之后將這些通信模式與一些攻擊規(guī)則庫聯(lián)系起來進(jìn)行相關(guān)的分析,檢測系統(tǒng)通過對其分析后會(huì)檢測出一些潛在的漏洞等,發(fā)現(xiàn)程序是否存在安全問題,之后采取適當(dāng)?shù)拇胧﹣斫鉀Q。通過Web數(shù)據(jù)挖掘中的一些技術(shù)與安全審計(jì)系統(tǒng)進(jìn)行結(jié)合,可以進(jìn)而對HF防火墻、IDS入侵系統(tǒng)等進(jìn)行信息的保護(hù),能夠及時(shí)的檢測網(wǎng)絡(luò)的安全狀態(tài),為工作人員及時(shí)的提供數(shù)據(jù)資料和系統(tǒng)的當(dāng)前運(yùn)行狀態(tài)。
通過對用戶的一些行為信息進(jìn)行采集和分析,如果發(fā)現(xiàn)用戶的異常行為或者是有異常的信息侵入時(shí),馬上向管理者發(fā)出提示信息,這種方法在目前網(wǎng)絡(luò)安全防范中起了重要作用。目前在反入侵檢測系統(tǒng)中主要使用的是檢測特征的方法,此方法是專家預(yù)先對數(shù)據(jù)的特征進(jìn)行設(shè)定,讓這個(gè)系統(tǒng)形成一定的模式來檢測入侵?jǐn)?shù)據(jù)[3]。在應(yīng)用中有一定的優(yōu)勢,能夠及時(shí)的發(fā)現(xiàn)入侵信息,但是不能夠及時(shí)的去更新入侵信息,這樣對于一些新出現(xiàn)的入侵信息就不能識(shí)別,在運(yùn)行過程中會(huì)經(jīng)常出現(xiàn)錯(cuò)誤報(bào)警和漏報(bào)警的現(xiàn)象。此外,隨著網(wǎng)絡(luò)在人們生活中的普及,網(wǎng)絡(luò)數(shù)據(jù)也在不斷的增大,這樣在審計(jì)記錄中就會(huì)出現(xiàn)大量的無關(guān)信息。這些信息會(huì)降低檢測速度或者導(dǎo)致數(shù)據(jù)過載等。Web數(shù)據(jù)挖掘系統(tǒng)主要是根據(jù)數(shù)據(jù)的關(guān)聯(lián)規(guī)則、類別和列序模式等進(jìn)行,通過數(shù)據(jù)的規(guī)律進(jìn)行智能化分析,這樣能夠很好的在系統(tǒng)中建立入侵檢測的規(guī)則和異常監(jiān)測的模型,通過這種程序能夠最大限度的降低在處理審計(jì)數(shù)據(jù)時(shí)對先驗(yàn)知識(shí)的要求,與入侵的程序和數(shù)據(jù)能夠及時(shí)準(zhǔn)確的發(fā)現(xiàn),這樣在很大程度上減少了系統(tǒng)的誤檢率。
Web技術(shù)應(yīng)用中所建立網(wǎng)絡(luò)信息防范的過程中應(yīng)注意:
檢測系統(tǒng)不是萬能的,工作人員在工作中,不能一切都靠檢測系統(tǒng),工作者本身也要努里提高自己的技術(shù)水平,加強(qiáng)業(yè)務(wù)學(xué)習(xí),提高網(wǎng)絡(luò)防范能力和工作效率,認(rèn)識(shí)到網(wǎng)絡(luò)防范工作的重要性,發(fā)揮工作者的主體作用,讓挖掘結(jié)果更準(zhǔn)確,更有價(jià)值。
工作者在進(jìn)行數(shù)據(jù)采集或者挖掘的過程中,一般都不會(huì)通知用戶的,采集的數(shù)據(jù)中可能涉及到用戶的基本信息,這關(guān)系到用戶的個(gè)人隱私。因此在運(yùn)行的過程中要充分的考慮到用戶的個(gè)人隱私問題,這在操作中涉及了兩個(gè)方面:①修改或整理涉及用戶隱私的基本信息,如身份證號(hào)碼、姓名等;②如果在挖掘的過程中發(fā)現(xiàn)用戶的隱私信息必須采取一定的措施進(jìn)行排斥。
[1]譚春輝,王俊.基于Web數(shù)據(jù)挖掘技術(shù)的企業(yè)網(wǎng)站客戶忠誠度提升模型研究 [J].圖書情報(bào)工作,2009,53(14):138.
[2]譚春輝,汪全莉.個(gè)性化信息服務(wù)與Web數(shù)據(jù)挖掘技術(shù)的契合 [J].情報(bào)雜志,2007,26(8):82.
[3]柴文光,周寧.網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘技術(shù)的整合研究 [J].情報(bào)理論與實(shí)踐,2009,46(3):97.