• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Web挖據(jù)的Web服務器入侵檢測研究

      2012-04-29 00:44:03皮國強劉韜
      計算機時代 2012年4期

      皮國強 劉韜

      摘? 要: 針對傳統(tǒng)的防火墻技術和網(wǎng)絡檢測技術不再能準確、及時地發(fā)現(xiàn)對服務器的攻擊行為提出了基于Web數(shù)據(jù)挖掘技術的一種服務器入侵檢測方法:首先由目前已經(jīng)掌握的對服務器攻擊行為特征作為樣本點,采用k-均值聚類分析算法進行無監(jiān)督學習,生成K個聚類的特征攻擊庫;其次采用鄰近分類算法,根據(jù)計算訪問樣本點與特征攻擊庫中心的距離對樣本點進行歸并;最后對特征攻擊庫中心點進行重新調(diào)整,確保對新的樣本點行為分析更加準確。

      關鍵詞: Web挖掘; 樣本點; k-均值聚類算法; 鄰近分類算法; 歐氏距離

      中圖分類號:TP393.08文獻標識碼:A????????????文章編號:1006-8228(2012)04-41-02

      Server intrusion detect based on Web mining study

      Pi Guoqiang, Liu Tao

      (Computer Network Technology Center of Zunyi Medical College, Zunyi, Guizhou 563003, China)

      Absrtact: Web server is a main physical carrier for information releasing, whose safety is one of hot topics now. With the rapid development of Internet and an exponential growth of information, attacks on the server are more and more frequent, diverse, and covert. The traditional firewall technology and network detection can no longer accurately and timely detect attacks. Web data mining is better to identify the attacks. It first regards the past attacks as sample points, and uses k-means clustering algorithm for unsupervised learning to generate K clusters of characteristics. Then it calculates the distance from a sample point to the characteristic attack center points of the sample library by the neighbor classification algorithm, and merge into the nearest library. Finally it re-adjusts the center of the feature library to ensure that the analysis of the new behavior of sample point is more accurate.

      Key words: Web mining; sample point; K-means clustering algorithm; neighbor classification algorithm; Euclidean distance

      0 引言

      隨著Internet的飛速發(fā)展,Web成為世界上規(guī)模最大的公共數(shù)據(jù)資源,它不僅是一個品牌形象展示的工具,而且逐步成為電子商務的工具,協(xié)同辦公的工具。Web服務器也稱為WWW服務器,主要提供網(wǎng)上信息瀏覽服務。這些年來Web服務器的安全成為關注的熱點,報道Web服務器受到攻擊的事件是屢見不鮮;針對服務器攻擊的手段日益多樣、專業(yè)、隱蔽,這導致限于單一的傳統(tǒng)Web安全手段解決Web安全遇到了難題。Web挖掘是從WWW相關資源上抽取信息和知識的過程,它將傳統(tǒng)的數(shù)據(jù)挖掘思想和方法用在Web上,從Web文檔和活動中抽取感興趣的、潛在的、有用的模式或隱藏信息。Web所用記錄挖掘是Web挖掘的一種,所有網(wǎng)上行為的可記錄性和數(shù)據(jù)量的快速增長為Web使用挖掘提供了寶貴資源。

      本文將Web挖掘技術引入到Web服務器的安全檢測中,提出了基于k-均值聚類算法和鄰近分類算法相結合的檢測模型。仿真結果表明,模型能大大提高對Web入侵檢測的能力,能實時、準確地發(fā)現(xiàn)入侵行為。

      1 Web服務器入侵檢測模型結構

      Web服務器入侵是對Web服務器進行潛在的、有預謀的、未經(jīng)授權的訪問操作,以達到某種目的。Web服務器安全檢測也像其他網(wǎng)絡元素安全檢測一樣,其檢測系統(tǒng)一般包括網(wǎng)絡數(shù)據(jù)采集模塊、網(wǎng)絡入侵分析模塊、入侵響應模塊及管理配置模塊[1]幾部分。Web服務器安全檢測模型結構如圖1所示。

      Web服務器入侵檢測主要是通過對Web使用記錄的挖掘,發(fā)現(xiàn)攻擊行為。Web使用記錄挖掘是指計算機系統(tǒng)自動發(fā)現(xiàn)和分析用戶使用模式,這些模式來自于收集的點擊流和相關數(shù)據(jù)或用戶與一個或多個網(wǎng)站互動的結果[2]。使用挖掘的目的是,改善Web站點的性能,改進Web站點的設計,根據(jù)用戶過去的訪問模式,預測用戶將來的訪問,給用戶提供個性化的服務及開展商業(yè)智能服務[3,4]。Web挖掘一般經(jīng)歷數(shù)據(jù)收集、數(shù)據(jù)預處理、模式發(fā)現(xiàn)和模式分析四個階段。由于挖掘的數(shù)據(jù)流—原始日志文件是簡單的文本文件,包括一些不完整的、冗余的、錯誤的數(shù)據(jù),同時原始的Web日志文件具有半結構化的特點,所以需要對其進行預處理,否則將影響挖掘的效果。數(shù)據(jù)預處理包括四個階段:數(shù)據(jù)凈化、用戶識別、會話識別和路徑補充、事務識別。

      圖1Web服務器入侵檢測模型結構

      在入侵檢測系統(tǒng)中,數(shù)據(jù)規(guī)范化模塊是將用戶訪問日志數(shù)據(jù)預處理成用戶事務,將其表示為n維空間的向量t,t=(Wtp1, Wtp2,…, Wtpn),其中如果Pj在事務t中出現(xiàn),則Wtp1=W(pj) (j=1,2,3,…, n),否則Wtpj=0。入侵分析模塊是將規(guī)范化后的用戶事務t在特征攻擊庫中找到一個離聚類中心點最近的一個聚類,確定其與哪個聚類的特征相近。特征庫鑒于經(jīng)驗學習已知了各聚類的安全評級(不排除人工對聚類的評級干預),根據(jù)聚類的安全評級判定用戶事務的攻擊行為(主要采用鄰近算法計算到聚類中心的距離)。入侵響應模塊根據(jù)入侵分析的結果作出響應:進行攻擊處理、用戶事務點歸類(移進)和重新計算中心點(主要用到了K-均值算法)。入侵檢測流程如圖2所示。

      圖2Web服務器入侵檢測流程圖

      2 鄰近算法和K-均值算法

      2.1 算法描述

      表1鄰近算法與K-均值算法

      鄰近算法是在訓練數(shù)據(jù)集D(D為特征庫聚類族中心點集合)中找出一個與測試樣本d最相似(或者距離最?。┑挠柧殬颖総。K-均值算法就是把數(shù)據(jù)集D的所有樣本,根據(jù)樣本屬性的相似性,劃分成K個聚類,每個聚類中心點為均值,算法如表1所示。

      2.2 算法評價

      鄰近算法為K鄰近算法的特殊應用。K鄰近算法很靈活,準確性高,但是在分類時它對每個訓練樣本點都要進行比較,如果訓練樣本較大的情況,K-鄰近算法需要很長的時間[5]。在訓練樣本很大的情況,將用戶事務樣本直接與特征庫的聚類簇中心進行比較不僅分類精確,而且時間開銷也較小。因為當聚類樣本點較多的情況,聚類中心點是族均值,較為精確,沒有必要將測試樣本點分別與每個聚類中的訓練樣本進行比較。K-均值算法是最著名的劃分聚類算法,算法簡潔和高效率,已成為聚類算法中使用最廣泛算法。

      3 入侵檢測仿真結果分析

      為了檢驗本文提出的安全檢測模型的性能,對某單位Web服務器的訪問日志數(shù)據(jù)進行仿真實驗評價,集中對攻擊行為,包括SQL注入漏洞、ASP上傳漏洞、SA注入點、非授權得到超級用戶權限攻擊(U2R)作了檢測將結果與傳統(tǒng)檢測結果進行比較,得到檢測率高、誤報率低于傳統(tǒng)的檢測方法。

      4 結束語

      本文針對傳統(tǒng)檢測Web服務器入侵行為的不足,提出了基于Web挖掘的檢測方法:對用戶事務進行分類和聚類相結合的模式挖掘;在判定入侵訪問過程中,用中心點代替聚類中的所有點,在不失準確性的同時,以降低距離計算的次數(shù);同時將測試樣本點直接歸并在相似的聚類中后進行中心調(diào)整,為下一次的判定提供條件。實驗結果表明,本文提出的Web挖掘檢法測入侵的方法比傳統(tǒng)的檢測優(yōu)秀。但是怎樣合理地對訪問日志進行規(guī)范化和怎么科學合理地庫中的評級都是檢測方法中的難題,因為規(guī)范過程中,樣本的維數(shù)(屬性個數(shù))和攻擊庫中的評級直接影響計算復雜度和結果的準確度。這是我們下階段要研究的問題。

      參考文獻:

      [1] 皮國強,劉韜.集成模型在網(wǎng)絡入侵檢測中的仿真研究[J].計算機仿真,2011.28(6):161~164

      [2] B.Mobasher. Web Usage Mining. In John Wang(eds.),Encyclopedia of Data Warehousing and Mining ,Idea Group,2006.

      [3] Liu Haibin ,KesV. Combined mining of web server logs andweb contents for classifying user navigation patterns and predicting users'future requests[J]. DataandKnowledge Engineering, 2006(7):307~309

      [4] Spiliopoulou M,Mobasher B,Berendt B,et al.A framework for the evaluation of session reconstruction heuristics in Web usage analysis[J]. Informs Journal of Computing,Special Issue on Mining Web Based Data for E- Business Application,2003.15(2):171~190

      [5] Liu Bing.Web 數(shù)據(jù)挖掘[M].俞勇,薛貴榮,韓定一,譯.清華大學出版社,2009.

      [6] 陽小蘭,錢程等.Web日志分析系統(tǒng)研究[J].計算機技術與發(fā)展,2011.21(9):211~214

      沂源县| 茶陵县| 五华县| 高阳县| 江孜县| 大洼县| 大余县| 江永县| 新余市| 英山县| 新津县| 乡城县| 云阳县| 屯昌县| 南溪县| 金沙县| 楚雄市| 张家界市| 肇庆市| 星子县| 鄂伦春自治旗| 驻马店市| 金坛市| 太仆寺旗| 开鲁县| 广平县| 罗城| 富川| 泰安市| 瓦房店市| 景东| 深圳市| 东光县| 石景山区| 四平市| 赤水市| 辽源市| 南丹县| 和顺县| 自贡市| 论坛|