• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)的校園網(wǎng)絡(luò)安全日志分析平臺(tái)研究

      2020-04-10 06:46:55劉中原
      世界家苑 2020年1期

      劉中原

      摘要:本課題分別從大數(shù)據(jù)信息分析平臺(tái)、數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)以及數(shù)據(jù)分析的架構(gòu)著手分析;其次,通過實(shí)現(xiàn)K-means的MapReduce方法,采用Hadoop分布式計(jì)算平臺(tái),同時(shí)分別從聚類功能結(jié)果測試和單機(jī)分析平臺(tái)性能對比測試,通過實(shí)驗(yàn)測試,基于Hadoop的校園網(wǎng)絡(luò)日志分析系統(tǒng)在收集、處理、存儲(chǔ)、挖掘方面相比傳統(tǒng)單機(jī)處理有很大改進(jìn),不僅減少了開發(fā)人員工作量同時(shí)還提高了效率。

      關(guān)鍵詞:大數(shù)據(jù)處理;Hadoop分布式;K-means

      1 引言

      如今,移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)、大數(shù)據(jù)等新興技術(shù)的普及,整個(gè)社會(huì)的網(wǎng)絡(luò)信息技術(shù)發(fā)生了巨大的變化,信息化環(huán)境己進(jìn)入了一個(gè)新的階段,這對學(xué)校網(wǎng)絡(luò)中心在對校園網(wǎng)絡(luò)的維護(hù)和管理上也提出了新的要求和挑戰(zhàn)。在當(dāng)今時(shí)代,互聯(lián)網(wǎng)技術(shù)己經(jīng)被十分深入地應(yīng)用到高校的學(xué)習(xí)、工作和校園生活中,我國各大高校的校園網(wǎng)建設(shè)也越來越受到高校的重視,通過連接校園網(wǎng)絡(luò)上網(wǎng),產(chǎn)生的日志數(shù)據(jù)具有實(shí)時(shí)、海量、動(dòng)態(tài)、無規(guī)則等特點(diǎn),但這些數(shù)據(jù)同時(shí)具有重要的價(jià)值。如何從這些復(fù)雜數(shù)據(jù)中找出我們需要的內(nèi)容,這就需要對這些原始的日志數(shù)據(jù)內(nèi)容進(jìn)行一些處理,通過數(shù)據(jù)的處理,挖掘出對學(xué)校管理有用途的信息,這些信息對學(xué)校校園網(wǎng)絡(luò)建設(shè)以及學(xué)校對學(xué)生的管理都十分重要。現(xiàn)有的一些日志分析工具,如:Awstats、Webalizer等,都可以用來對網(wǎng)絡(luò)日志進(jìn)行分析統(tǒng)計(jì),但由于這些工具基本是屬于單機(jī)運(yùn)行,在計(jì)算能力和存儲(chǔ)能力上,滿足不了如今校園網(wǎng)絡(luò)中海量的網(wǎng)絡(luò)日志的分析和處理,所以,通過使用Hadoop為框架,利用MapReduce編程模式和HDFS實(shí)現(xiàn)并行化處理,解決傳統(tǒng)日志分析在海量數(shù)據(jù)面前遇到的瓶頸,對校園網(wǎng)絡(luò)建設(shè)和管理有重要的意義。

      2 大數(shù)據(jù)安全日志系統(tǒng)架構(gòu)

      2.1 智能信息分析平臺(tái)

      智能信息分析平臺(tái)由數(shù)據(jù)的收集,保存,分析和優(yōu)化功能模塊組成,每個(gè)模塊構(gòu)造不同的數(shù)據(jù)格式和處理方法。從各種數(shù)據(jù)源中穩(wěn)定地收集數(shù)據(jù),并通過多個(gè)并行結(jié)構(gòu)平均地保存數(shù)據(jù),提供能夠基于高速搜索進(jìn)行智能分析的系統(tǒng)結(jié)構(gòu)。

      2.2 數(shù)據(jù)收集算法

      在考慮所有數(shù)據(jù)收集技術(shù),海量數(shù)據(jù)傳輸,管理穩(wěn)定性以及收集和使用數(shù)據(jù)的高可用性的基礎(chǔ)上,開發(fā)數(shù)據(jù)收集框架。安全設(shè)備中產(chǎn)生的所有信息都通過數(shù)據(jù)發(fā)送器實(shí)時(shí)保存在收集器中,例如源,格式數(shù)據(jù),結(jié)構(gòu)化/非結(jié)構(gòu)化原始日志和原始日志。當(dāng)前的數(shù)據(jù)收集過程顯示了在處理主要主頁中的Web日志,提出使用兩種方法,即agent/lessagent來收集信息,并通過考慮實(shí)時(shí)性和穩(wěn)定性來增加選擇收集方法的靈活性。數(shù)據(jù)發(fā)送器自動(dòng)分散錯(cuò)誤和數(shù)據(jù)負(fù)載,并通過使用自動(dòng)負(fù)載分配,檢測錯(cuò)誤/重復(fù)和日志轉(zhuǎn)發(fā)技術(shù)來防止數(shù)據(jù)丟失。

      通過應(yīng)用大量的UDP數(shù)據(jù)包處理技術(shù)和數(shù)據(jù)轉(zhuǎn)發(fā)技術(shù),可從由互鎖適配器Syslog/SNMP,具有UNIX/Windows性能的系統(tǒng)性能適配器,UNIX Syslog和Windows WMI構(gòu)造的系統(tǒng)日志適配器傳輸大量信息。要將收集的信息通過適配器傳輸?shù)絺鬏旉?duì)列,可以通過驗(yàn)證數(shù)據(jù)一致性并根據(jù)設(shè)備的性能調(diào)整數(shù)據(jù)傳輸量來完成。當(dāng)發(fā)生數(shù)據(jù)溢出時(shí),數(shù)據(jù)將無法傳輸并重復(fù)到保留的收集器。如果在此過程中發(fā)生諸如網(wǎng)絡(luò)遣散之類的錯(cuò)誤,請臨時(shí)保存數(shù)據(jù),然后通過具有SSL認(rèn)證,SSL解碼器,SSL捕獲和LOG過濾器功能的數(shù)據(jù)接合適配器重復(fù)該數(shù)據(jù)。

      2.3 數(shù)據(jù)存儲(chǔ)

      收集器由基于分發(fā)的日志服務(wù)器構(gòu)造,有收集器服務(wù)器的保存方法,通過收集系統(tǒng)獲得的數(shù)據(jù)供客戶通過接收和規(guī)范化過程初始查找信息,然后與規(guī)范化數(shù)據(jù)進(jìn)行比較,并獲得與DB交互的索引值。接收安全日志,系統(tǒng)日志和應(yīng)用程序日志的數(shù)據(jù),并通過規(guī)范化對其進(jìn)行規(guī)范化引擎,規(guī)范化文件和數(shù)據(jù)標(biāo)記,使用分布式體系結(jié)構(gòu)保存大量的安全日志文件,分散的體系結(jié)構(gòu)在并行處理中進(jìn)行處理以存儲(chǔ)海量數(shù)據(jù),并通過基于分發(fā)的多索引器運(yùn)行保存和實(shí)時(shí)索引工作。因此,每天的Tera字節(jié)(TB)數(shù)據(jù)可以通過分布式體系結(jié)構(gòu)進(jìn)行處理,每個(gè)收集器顯示出200000EPS的處理性能。特別是每個(gè)收集器在保存數(shù)據(jù)時(shí)自動(dòng)檢查完整性,并將數(shù)據(jù)保存在壓縮和編碼的文件夾中。收集器通過構(gòu)造數(shù)據(jù)備份/熱備用收集器來自動(dòng)備份和還原,以自動(dòng)保護(hù)原始數(shù)據(jù)免受多系統(tǒng)可能出現(xiàn)的故障的影響。從理論上講,這種管理結(jié)構(gòu)可以存儲(chǔ)無限的數(shù)據(jù),并且具有可擴(kuò)展性和穩(wěn)定性。與并行處理方式相比,通過以并行形式排列收集器也可以得到更快的結(jié)果,從而導(dǎo)致收集器數(shù)量和處理性能成比例。當(dāng)數(shù)據(jù)大小較小時(shí),該技術(shù)可以對處理大量安全日志大數(shù)據(jù)產(chǎn)生巨大的影響。

      2.4 大數(shù)據(jù)分析系統(tǒng)

      不能通過實(shí)時(shí)檢查來保證海量數(shù)據(jù)的速度,但是,可以通過輸入關(guān)鍵字或保存在收集器中的索引數(shù)據(jù)的條件來查找索引數(shù)據(jù)來進(jìn)行操作。搜索到的大量安全日志數(shù)據(jù)分析通過數(shù)據(jù)細(xì)化(將問題細(xì)分成小塊的數(shù)據(jù)進(jìn)行分析),使多重掃描變得更加容易。此外,通過兩種基于分布的多次掃描,還可以確保來自安全設(shè)備的數(shù)據(jù)的實(shí)時(shí)分析性能。其中之一是根據(jù)基線和閾值檢測數(shù)據(jù)的快速變化。另一個(gè)正在使用趨勢分析,該趨勢分析是基于統(tǒng)計(jì)數(shù)據(jù)來預(yù)測數(shù)據(jù)。

      通過對設(shè)備/日志類型的實(shí)時(shí)監(jiān)控,分析所有事件的相關(guān)性并以圖表的形式直觀地顯示出來。在實(shí)時(shí)監(jiān)控過程中發(fā)現(xiàn)錯(cuò)誤時(shí),打開警報(bào)以可視化形式顯示威脅。單次掃描最多運(yùn)行20億例,在每天200G~400G的簡單掃描條件下,在一分鐘內(nèi)進(jìn)行掃描。

      2.4.1 數(shù)據(jù)分析日志系統(tǒng)。數(shù)據(jù)收集結(jié)構(gòu)的構(gòu)建應(yīng)考慮所有數(shù)據(jù)收集技術(shù),海量數(shù)據(jù)傳輸,管理穩(wěn)定性以及數(shù)據(jù)收集和參與的高可用性。因此,所有源,格式數(shù)據(jù),結(jié)構(gòu)化/非結(jié)構(gòu)化原始日志以及來自安全設(shè)備的原始日志都將實(shí)時(shí)收集,并通過數(shù)據(jù)發(fā)送器存儲(chǔ)在收集器中。

      2.4.2 日志分析算法。課題提出使用PCRE(Perl兼容正則表達(dá)式)技術(shù)的方法,該技術(shù)支持非結(jié)構(gòu)化數(shù)據(jù)規(guī)范化技術(shù),該庫支持特殊的Separator技術(shù)和正則表達(dá)式。該算法用于分析日志,這些日志分為日志收集服務(wù)器,日志解析器和日志轉(zhuǎn)換。日志收集服務(wù)器使用FireWall事件,IDS事件,流量事件和WebFw事件等收集設(shè)備,通過數(shù)據(jù)過濾器將收集的數(shù)據(jù)傳遞到日志解析器。日志解析器負(fù)責(zé)解析收集到的設(shè)備對已過濾數(shù)據(jù)的轉(zhuǎn)換,并將數(shù)據(jù)標(biāo)準(zhǔn)化為常規(guī)數(shù)據(jù)。轉(zhuǎn)換后的數(shù)據(jù)保存在文件或內(nèi)存中,并發(fā)送日志。同時(shí),通過檢查原始數(shù)據(jù),正則表達(dá)式和日志轉(zhuǎn)換,刪除以及選擇字段值以保存XML文件來完成規(guī)范化。

      3 基于Hadoop日志分析系統(tǒng)的實(shí)現(xiàn)

      3.1 Hadoop分布式平臺(tái)搭建

      本課題采用Hadoop分布式開源框架,構(gòu)建多機(jī)集群,其中Master主機(jī)開啟JobTracker,負(fù)責(zé)其他執(zhí)行TaskTracker任務(wù)的Slave主機(jī)節(jié)點(diǎn)的任務(wù)調(diào)度,資源分配。Slave節(jié)點(diǎn)將Master節(jié)點(diǎn)分發(fā)的MapReduce任務(wù),并將處理結(jié)果返回給主節(jié)點(diǎn)。

      3.2 日志存儲(chǔ)模塊

      日志安全分析平臺(tái)后端存儲(chǔ)主要由MySQL和HDFS實(shí)現(xiàn),其中MySQL主要存儲(chǔ)業(yè)務(wù)處理結(jié)果數(shù)據(jù),然HDFS存儲(chǔ)大量WEB日志文件數(shù)據(jù)以及清洗后的文件;其中HDFS開源工具sqoop可以實(shí)現(xiàn)從HDFS數(shù)據(jù)轉(zhuǎn)化為MYSQL關(guān)系型數(shù)據(jù)。

      首先,在機(jī)器上安裝MySQL軟件并創(chuàng)建數(shù)據(jù)庫以及附屬表,當(dāng)WEB日志經(jīng)過日志挖掘模塊處理后,得到的數(shù)據(jù)信息是保存在HDFS布式文件系統(tǒng)中,這時(shí)可以使用sqoop工具將獲取到的數(shù)據(jù)信息轉(zhuǎn)存到MySQL數(shù)據(jù)庫上面。導(dǎo)出成功后,可以在MySQL數(shù)據(jù)庫里查詢數(shù)據(jù)信息,WEB日志數(shù)據(jù)以64M大小分塊存儲(chǔ)在HDFS平臺(tái)上,在不同DataNode節(jié)點(diǎn)都有數(shù)據(jù)副本,以保證數(shù)據(jù)安全,同時(shí)由于HDFS以下特性:

      (1)HSDF可以處理TB級別的數(shù)據(jù)量,面對海量的WEB日志,HDFS是最適合不過的。

      (2)支持流式的數(shù)據(jù)訪問方法,HDFS多節(jié)點(diǎn)數(shù)據(jù)備份,由于一次寫入,多點(diǎn)讀取,可以支持高并發(fā)數(shù)據(jù)請求目的。

      (3)Hadoop框架對機(jī)器性能、資源要求不高,可以使用廉價(jià)的商用機(jī)器集群,Hadoop通過集群維持系統(tǒng)可靠性,可以保證單個(gè)節(jié)點(diǎn)故障不會(huì)導(dǎo)致系統(tǒng)奔潰。

      3.3 WEB日志聚類算法的設(shè)計(jì)

      本課題采用K-means進(jìn)行相似用戶的挖掘,默認(rèn)的聚類算法都是基于單機(jī)實(shí)現(xiàn)完成,由于采用Hadoop分布式平臺(tái),需要對傳統(tǒng)的單機(jī)聚類算法進(jìn)升級改造以適應(yīng)分布式計(jì)算平臺(tái)。

      K-means聚類算法每次迭代分兩步走,首先根據(jù)樣本點(diǎn)與中心點(diǎn)距離確定歸屬;其次,根據(jù)當(dāng)前最新樣本點(diǎn)的分布可重新設(shè)定中心點(diǎn)位置。Hadoop的MapReduce的處理過程正好滿足K-means的計(jì)算步驟,其中Map函數(shù)選擇離樣本最近的中心點(diǎn),更新該中心點(diǎn)的樣本庫;Reduce根據(jù)中心點(diǎn)的樣本庫重新計(jì)算中心點(diǎn)的位置,繼續(xù)后續(xù)的迭代處理,最終通過多次迭代計(jì)算,K-means可以達(dá)到收斂狀態(tài)。在實(shí)現(xiàn)分布式聚類每次通過MapReduce進(jìn)行迭代計(jì)算,Reduce計(jì)算結(jié)果作為下次Map計(jì)算的輸入。

      Map函數(shù)的設(shè)計(jì)中,Mapper函數(shù)功能是根據(jù)已有中心點(diǎn)的距離對當(dāng)前樣本點(diǎn)進(jìn)行分類;Mapper函數(shù)的輸入為每個(gè)用戶日志軌跡屬性向量t,通過Mapper計(jì)算得到輸出的中間結(jié)果是<中心點(diǎn),t>,即是該用戶日志屬性向量所屬中心點(diǎn)。

      通常在處理Map函數(shù)和Reduce函數(shù)之間增加Combiner函數(shù)處理,該函數(shù)主要是對Map函數(shù)輸出值進(jìn)行合并輸出,該輸出結(jié)果作為Reduce函數(shù)輸入。Reduce函數(shù)對更新Key所對應(yīng)的中心點(diǎn)位置,Reducer函數(shù)利用公式來重新計(jì)算中心點(diǎn)位置,其中Ci表示第i個(gè)中心點(diǎn)的向量空間位置,N代表該中心點(diǎn)的所有樣本的數(shù)量,Vi代表屬于Ci中心點(diǎn)的第個(gè)j樣本向量值。

      通過并發(fā)K-means計(jì)算流程,可以保證在Hadoop分布式高效運(yùn)行。將改進(jìn)后的K-means距離算法成功應(yīng)用于大數(shù)據(jù)校園網(wǎng)絡(luò)安全日志分析流程中。

      3.4 系統(tǒng)運(yùn)行結(jié)果分析

      3.4.1 大數(shù)據(jù)分析功能測試結(jié)果分析。本課題分別隨機(jī)設(shè)置3、4、5個(gè)中心點(diǎn)進(jìn)行相關(guān)實(shí)驗(yàn),每組實(shí)驗(yàn)重復(fù)10次,取實(shí)驗(yàn)的平均指標(biāo),最終實(shí)驗(yàn)效果如圖1所示,圖中橫軸著表示了類簇中心的個(gè)數(shù),縱軸表示該中心點(diǎn)下面所屬用戶占比量。

      實(shí)驗(yàn)結(jié)果表明相同數(shù)量的中心點(diǎn)得到實(shí)驗(yàn)結(jié)果不盡相同,不同數(shù)量的中心點(diǎn)實(shí)驗(yàn)結(jié)果也不一致,這是因?yàn)槭褂肒-means聚類時(shí),會(huì)隨機(jī)K個(gè)向量點(diǎn)作為初始中心參考點(diǎn),但是隨著迭代次數(shù)增加,最終的聚類結(jié)果大體一致。

      3.4.2 分布式分析平臺(tái)性能測試。在相同數(shù)據(jù)量下分別對單機(jī)和Hadoop集群的消耗時(shí)間比較,在數(shù)據(jù)量并不是很客觀的情況下,Hadoop集群并未領(lǐng)先于單機(jī)性能,主要是Hadoop集群在每次迭代計(jì)算過程中都會(huì)開啟新MapReduce任務(wù),在數(shù)據(jù)量很小的情況下,時(shí)間占比主要在啟動(dòng)任務(wù)資源;隨著數(shù)據(jù)量的增大,計(jì)算資源消耗占比時(shí)間也隨之增大,啟動(dòng)任務(wù)消耗的時(shí)間占比越小,可以忽略。因此,在數(shù)據(jù)量非??捎^的情況下,Hadoop集群的計(jì)算效率明顯優(yōu)越于單機(jī)性能。

      參考文獻(xiàn):

      [1] 王參參,姜青云,李彤.基于大數(shù)據(jù)的日志分析平臺(tái)在銀行中的研究與實(shí)現(xiàn)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2018(05).

      [2] 胡沐創(chuàng).大數(shù)據(jù)日志分析平臺(tái)應(yīng)用探索與實(shí)踐[J].金融科技時(shí)代,2018.

      [3] 應(yīng)毅,任凱,劉亞軍.基于大數(shù)據(jù)的網(wǎng)絡(luò)日志分析技術(shù)[J].計(jì)算機(jī)科學(xué),2018(S2).

      [4] 楊敏,何海濤,趙瓊.流量大數(shù)據(jù)安全分析平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].通信學(xué)報(bào),2018(S1).

      [5] 王秋紅.基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)教學(xué)平臺(tái)用戶行為分析研究[J].電子世界,2019(09).

      [6] 單康康,王佶,常曉潔.基于大數(shù)據(jù)的校園網(wǎng)海量日志分析平臺(tái)研究[J].信息通信, 2017(03).

      基金項(xiàng)目:本文系杭州職業(yè)技術(shù)學(xué)院2020年度校級科研項(xiàng)目“基于大數(shù)據(jù)的校園網(wǎng)絡(luò)安全日志分析平臺(tái)研究”(編號:ky202028)。

      (作者單位:杭州職業(yè)技術(shù)學(xué)院 信息工程學(xué)院)

      公主岭市| 天气| 大同市| 上思县| 东台市| 通山县| 宜川县| 桃园市| 洞口县| 小金县| 江华| 福建省| 原阳县| 新乡县| 河东区| 财经| 湘阴县| 万安县| 托克托县| 高雄县| 乌拉特前旗| 瓮安县| 曲松县| 麻城市| 定日县| 宁强县| 本溪市| 阿拉善盟| 十堰市| 衡阳市| 绵阳市| 武冈市| 招远市| 红安县| 磐安县| 古田县| 婺源县| 山东省| 茌平县| 沁水县| 江孜县|