• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)

      2018-01-17 22:22:46王萍
      電子技術(shù)與軟件工程 2017年24期
      關(guān)鍵詞:機器學(xué)習(xí)大數(shù)據(jù)

      王萍

      摘 要

      本文提出了一種基于大數(shù)據(jù)的技術(shù)來識別網(wǎng)絡(luò)異常行為的方法,并基于該理論方法設(shè)計實現(xiàn)了一個網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)。本文詳細描述了系統(tǒng)的總體架構(gòu)設(shè)計、各模塊詳細設(shè)計及異常入侵行為發(fā)現(xiàn)方法原理。本系統(tǒng)涉及的核心技術(shù)模塊包括數(shù)據(jù)采集與預(yù)處理模塊、實時流量監(jiān)測模塊、大數(shù)據(jù)關(guān)聯(lián)分析異常檢測模塊、訪問行為基線機器學(xué)習(xí)模塊、綜合管理與展示模塊。本文使用的異常識別方法首先通過網(wǎng)絡(luò)流量前端數(shù)據(jù)采集與預(yù)處理模塊采集并還原網(wǎng)絡(luò)流量數(shù)據(jù)、通過syslog收集安全設(shè)備告警數(shù)據(jù)、通過漏洞掃描工具采集系統(tǒng)和應(yīng)用的漏洞數(shù)據(jù),再將多種數(shù)據(jù)源采集的數(shù)據(jù)進行融合和關(guān)聯(lián)分析,利用機器學(xué)習(xí)技術(shù)形成網(wǎng)絡(luò)邊界訪問、業(yè)務(wù)系統(tǒng)訪問、網(wǎng)站訪問正常行為基線,再結(jié)合基線與實時流量和網(wǎng)絡(luò)安全事件的實時對比關(guān)聯(lián)分析識別網(wǎng)絡(luò)入侵行為。系統(tǒng)使用的主要技術(shù)有:基于Spark streaming的實時大數(shù)據(jù)關(guān)聯(lián)分析技術(shù),基于Spark MLlib的離線挖掘分析技術(shù),基于kafka的數(shù)據(jù)總線技術(shù),基于Spring MVC的Web應(yīng)用技術(shù),基于html5、css、js的前端展示技術(shù)。

      【關(guān)鍵詞】網(wǎng)絡(luò)異常行為分析 實時關(guān)聯(lián) 機器學(xué)習(xí) 大數(shù)據(jù)

      1 緒論

      近年來網(wǎng)絡(luò)攻擊技術(shù)發(fā)展變換迅速,隨著各種網(wǎng)絡(luò)攻擊檢測技術(shù)的發(fā)展,黑客為了繞過檢測系統(tǒng),采用的攻擊手段也越來越隱蔽,行為越來越復(fù)雜,為了達到最終目的,黑客潛伏周期也會很長。在此種場景下,現(xiàn)在普遍運用的基于特征檢測的方法只能將已有的入侵行為模式檢查出來,但對新的入侵方法無能為力,需要安全專家對新入侵方式進行分析后重新提取模型特征,生成新的規(guī)則更新到系統(tǒng)中,費時費力,因此在應(yīng)對復(fù)雜多變的攻擊手段面前往往響應(yīng)效率低下。

      隨著大數(shù)據(jù)技術(shù)的發(fā)展,提升了對海量數(shù)據(jù)的處理能力,因此可以通過實時數(shù)據(jù)流的檢測和對歷史數(shù)據(jù)的挖掘分析進行非基于特征的異常行為檢測,此方法可以識別更隱蔽及復(fù)雜手法的攻擊行為。

      2 系統(tǒng)目標

      本系統(tǒng)基于大數(shù)據(jù)技術(shù)手段,通過對網(wǎng)域信息、資產(chǎn)信息、應(yīng)用信息、漏洞信息、實時網(wǎng)絡(luò)流量、安全事件等信息的采集和關(guān)聯(lián)分析,并對收集的歷史數(shù)據(jù)進行挖掘分析,通過智能的手段去學(xué)習(xí)正常的網(wǎng)絡(luò)訪問行為基線,再利用基線與實時網(wǎng)絡(luò)訪問行為的對比識別異常攻擊行為,并以可視化的方式直觀的顯示異常告警和異常訪問路徑。

      3 系統(tǒng)設(shè)計

      3.1 系統(tǒng)架構(gòu)設(shè)計

      如圖1所示,本系統(tǒng)分為數(shù)據(jù)采集層、數(shù)據(jù)預(yù)處理層、數(shù)據(jù)分析層、數(shù)據(jù)持久化層、和展示層。

      3.1.1 數(shù)據(jù)采集層

      數(shù)據(jù)采集層負責(zé)從不同的數(shù)據(jù)源采集數(shù)據(jù),本系統(tǒng)的數(shù)據(jù)來源包括網(wǎng)絡(luò)中核心交換機的鏡像網(wǎng)絡(luò)流量,網(wǎng)絡(luò)中部署的IDS、WAF、防火墻、防病毒等安全設(shè)備的告警事件,主機和應(yīng)用服務(wù)器日志。

      3.1.2 數(shù)據(jù)預(yù)處理層

      數(shù)據(jù)預(yù)處理層負責(zé)將接入的原始數(shù)據(jù)進行解析、過濾、數(shù)據(jù)提取、歸一化、豐富化處理,為后續(xù)的數(shù)據(jù)分析處理提供有效數(shù)據(jù)。

      3.1.3 數(shù)據(jù)分析層

      數(shù)據(jù)分析層分為實時分析和離線分析兩部分。實時分析基于實時數(shù)據(jù)流處理技術(shù),對數(shù)據(jù)進行關(guān)聯(lián)對比和統(tǒng)計,基于一定的分析規(guī)則形成異常行為告警事件。

      3.1.4 數(shù)據(jù)持久化層

      數(shù)據(jù)持久化層根據(jù)存儲數(shù)據(jù)的類型及使用情況采用不同的數(shù)據(jù)庫進行存儲。

      3.1.5 展示平臺層

      展示平臺層是一個人機交互的Web應(yīng)用,主要用于系統(tǒng)的可視化管理操作、分析結(jié)果的展示、告警事件從查詢和處理、交互式歷史數(shù)據(jù)挖掘分析。

      3.2 系統(tǒng)功能模塊設(shè)計

      3.2.1 數(shù)據(jù)采集與預(yù)處理模塊

      數(shù)據(jù)采集與預(yù)處理模塊實現(xiàn)了數(shù)據(jù)采集接收的接口,支持通過syslog接收流量前端、安全設(shè)備上報的數(shù)據(jù),同時支持通過日志文件讀取的方式獲得應(yīng)用日志數(shù)據(jù)。數(shù)據(jù)預(yù)處理通過正則規(guī)則文件對接入的事件內(nèi)容進行匹配和提取,并將數(shù)據(jù)內(nèi)容按照統(tǒng)一的格式進行組裝形成歸一化的事件,并對數(shù)據(jù)中例如各異的時間格式、事件等級、事件名稱等進行統(tǒng)一的標準化處理。事件經(jīng)過歸一化處理后還需要對后續(xù)分析所依賴的屬性進行豐富化處理,例如根據(jù)IP定位回填物理位置信息、資產(chǎn)信息等。

      3.2.2 實時異常檢測模塊

      實時異常檢測模塊采用Spark streaming(Spark Streaming是建立在Spark上的實時計算框架,通過它提供的豐富的API、基于內(nèi)存的高速執(zhí)行引擎,用戶可以結(jié)合流式、批處理和交互試查詢應(yīng)用)技術(shù)進行實時事件流的處理,數(shù)據(jù)采集與預(yù)處理模塊將處理過的數(shù)據(jù)放入kafka(是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng))中,kafka作為系統(tǒng)的消息總線承擔(dān)各個模塊之間的數(shù)據(jù)交換,實時監(jiān)測模塊通過消息訂閱讀取預(yù)處理后的實時數(shù)據(jù)流,并依據(jù)檢測規(guī)則對數(shù)據(jù)內(nèi)容進行檢測,例如根據(jù)登記的允許開放端口檢測非法端口訪問,根據(jù)權(quán)限規(guī)則檢測非法請求,根據(jù)請求頻度、業(yè)務(wù)規(guī)則檢測異常行為等。

      3.2.3 機器學(xué)習(xí)模塊

      機器學(xué)習(xí)模塊采用Spark MLlib(MLlib是Spark實現(xiàn)一些常見的機器學(xué)習(xí)算法和實用程序,包括分類、回歸、聚類、協(xié)同過濾、降維以及底層優(yōu)化等)技術(shù)對歷史流量數(shù)據(jù)、安全事件數(shù)據(jù)進行基于統(tǒng)計、聚類等算法的學(xué)習(xí),可以學(xué)習(xí)針對應(yīng)用的流量訪問規(guī)律,形成正常業(yè)務(wù)訪問模型,再將模型轉(zhuǎn)化成規(guī)則應(yīng)用到實時異常檢測模塊對后續(xù)數(shù)據(jù)進行實時分析。

      3.2.4 綜合管理與展示模塊

      綜合管理與展示模塊采用Spring MVC架構(gòu)實現(xiàn)了一個人機交互的管理平臺,管理平臺包括異常分析結(jié)果的可視化展示,告警事件的查詢、統(tǒng)計、處置管理,資產(chǎn)、漏洞、惡意IP等信息登記,數(shù)據(jù)挖掘任務(wù)的配置,算法管理,學(xué)習(xí)結(jié)果查看,系統(tǒng)自身的用戶、角色權(quán)限管理,系統(tǒng)操作日志管理,系統(tǒng)菜單管理,字典表管理等。endprint

      4 使用的關(guān)鍵技術(shù)

      4.1 大數(shù)據(jù)存儲技術(shù)

      Elasticsearch適用于海量事件的檢索處理,因此將經(jīng)常被用于頁面交互查詢的分析告警結(jié)果數(shù)據(jù)放入Elasticsearch。

      HDFS是Hadoop分布式文件系統(tǒng),適合存放大規(guī)模數(shù)據(jù)集,因此將收集的原始數(shù)據(jù)和預(yù)處理結(jié)果數(shù)據(jù)放入其中,結(jié)合Spark(Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎)技術(shù)進行歷史數(shù)據(jù)挖掘。

      redis是一個key-value的基于內(nèi)存的存儲系統(tǒng),適用于實時分析時快速查找相關(guān)聯(lián)的信息,例如根據(jù)IP地址檢索物理位置、關(guān)聯(lián)資產(chǎn)信息,根據(jù)漏洞編號關(guān)聯(lián)漏洞信息等。

      Mysql是關(guān)系數(shù)據(jù)庫,適合存儲系統(tǒng)管理類數(shù)據(jù)、統(tǒng)計結(jié)果數(shù)據(jù)、報告數(shù)據(jù)等。

      4.2 實時流事件處理技術(shù)

      Spark streaming是一個對實時數(shù)據(jù)流進行高通量、容錯處理的流式處理系統(tǒng),可以對接多種數(shù)據(jù)源,本系統(tǒng)采用的數(shù)據(jù)源是kafka,系統(tǒng)將讀取的數(shù)據(jù)流分解成一系列短小的批處理作業(yè),對每個數(shù)據(jù)片的內(nèi)容根據(jù)檢測規(guī)則進行異常檢測。

      4.3 大數(shù)據(jù)挖掘分析技術(shù)

      本系統(tǒng)基于Spark MLlib技術(shù),通過運用聚類、統(tǒng)計、頻度分析、決策樹等算法從netflow流量中學(xué)習(xí)服務(wù)器以及開放的端口,統(tǒng)計端口的流量規(guī)律,通過對比包數(shù)范圍、字節(jié)范圍、流量條數(shù)、連接頻率、連接范圍等指標發(fā)現(xiàn)異常的網(wǎng)絡(luò)訪問行為,可根據(jù)異常特征確定惡意域名、僵尸網(wǎng)絡(luò)等。

      5 系統(tǒng)驗證

      系統(tǒng)開發(fā)完成后應(yīng)用于某大型國企中心機房,采集業(yè)務(wù)應(yīng)用服務(wù)器區(qū)核心交換機流量,經(jīng)過一段時間的穩(wěn)定運行可以識別出服務(wù)器違規(guī)開放的端口,非法的協(xié)議訪問,發(fā)現(xiàn)外部惡意主機連接等異常行為,且發(fā)現(xiàn)的外部IP地址通過網(wǎng)絡(luò)惡意地址庫檢索結(jié)果證實是垃圾郵件服務(wù)器。

      6 結(jié)論

      本系統(tǒng)基于大數(shù)據(jù)的技術(shù),通過運用Spark、kafka、Spring等技術(shù)框架構(gòu)建了一套網(wǎng)絡(luò)異常分析監(jiān)測系統(tǒng),通過接入網(wǎng)絡(luò)流量、安全日志、漏掃結(jié)果、資產(chǎn)信息等數(shù)據(jù)進行關(guān)聯(lián)對比和挖掘分析,能夠?qū)崿F(xiàn)無需預(yù)置特征的網(wǎng)絡(luò)異常行為識別。

      作者單位

      中電長城網(wǎng)際系統(tǒng)應(yīng)用有限公司 北京市 102209endprint

      猜你喜歡
      機器學(xué)習(xí)大數(shù)據(jù)
      基于詞典與機器學(xué)習(xí)的中文微博情感分析
      基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機的金融數(shù)據(jù)分析研究
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      如皋市| 财经| 壶关县| 鹿邑县| 巴东县| 巧家县| 错那县| 张家口市| 荣成市| 兴城市| 双桥区| 伊通| 儋州市| 南川市| 茌平县| 鱼台县| 洪湖市| 开封县| 大洼县| 无极县| 梅河口市| 苏尼特右旗| 中卫市| 宝鸡市| 东兴市| 浮梁县| 灵寿县| 成都市| 海盐县| 镇坪县| 宁陵县| 平谷区| 平凉市| 马公市| 灵宝市| 宕昌县| 邓州市| 河源市| 沁水县| 婺源县| 灵台县|