盧偉
摘? ?要:當(dāng)前隨著信息化技術(shù)的不斷發(fā)展,計(jì)算機(jī)技術(shù)已經(jīng)被廣泛應(yīng)用到人們的生產(chǎn)生活中的方方面面。其中,計(jì)算機(jī)技術(shù)帶來便利的同時(shí),也帶來了安全隱患。為此,在信息數(shù)據(jù)膨脹化的當(dāng)下,如何進(jìn)行有效數(shù)據(jù)挖掘已經(jīng)成為了人們關(guān)注的焦點(diǎn)。只有建立科學(xué)準(zhǔn)確高效的信息網(wǎng)絡(luò)數(shù)據(jù)挖掘架構(gòu),才能充分保障網(wǎng)絡(luò)信息安全。本文首先進(jìn)行了以SPARK為基礎(chǔ)的網(wǎng)絡(luò)系統(tǒng)整體安全方案設(shè)計(jì),其次分別介紹了分布式網(wǎng)絡(luò)構(gòu)件及數(shù)據(jù)存儲(chǔ)架構(gòu)設(shè)計(jì),繼而進(jìn)行了安全實(shí)踐,以便為相關(guān)網(wǎng)絡(luò)企業(yè)提供科學(xué)合理的參考依據(jù)。
關(guān)鍵詞:大數(shù)據(jù)挖掘? 架構(gòu)? 安全實(shí)踐
1? 安全方案整體設(shè)計(jì)
這里對本文所設(shè)計(jì)的安全系統(tǒng)進(jìn)行整體設(shè)計(jì)分析,總體來說,可以分為如下五個(gè)方面,即采集數(shù)據(jù)層面、歷史數(shù)據(jù)儲(chǔ)存層面、分析數(shù)據(jù)層面、安全分析實(shí)踐層面、結(jié)果展示層面。整體方案首先通過系統(tǒng)服務(wù)設(shè)備進(jìn)行采集分布式代理對log進(jìn)行收集,繼而將收集到的log日志進(jìn)行歷史數(shù)據(jù)平臺(tái)的傳輸,在此過程中,形成HDFS文件系統(tǒng)、KFA消息隊(duì)列;之后,SPA收集服務(wù)器傳送的SPA分布式計(jì)算應(yīng)用,由該集群通過HDFS/KFA進(jìn)行數(shù)據(jù)挖掘工作,最后進(jìn)行結(jié)果反饋,并進(jìn)行數(shù)據(jù)存儲(chǔ)。
主要步驟可分為如下五個(gè),對于數(shù)據(jù)采集而言,F(xiàn)lu形式的分布式網(wǎng)絡(luò)采集進(jìn)行各層服務(wù)器log的收集,其中不同的系統(tǒng)種類,需要進(jìn)行FLu采集代理設(shè)置,對各不同系統(tǒng)進(jìn)行安全數(shù)據(jù)的收集。數(shù)據(jù)收集完成后,以數(shù)據(jù)量規(guī)模的不同為基礎(chǔ),進(jìn)行Flu節(jié)點(diǎn)匯聚,由該節(jié)點(diǎn)進(jìn)行數(shù)據(jù)編輯如HDFS/KFA中,以此完成數(shù)據(jù)收集工作。對于原始數(shù)據(jù)的儲(chǔ)存而言,其往往表現(xiàn)為數(shù)據(jù)量繁多,但是可利用性較低。為此,本文所設(shè)計(jì)方案主要采取批處理形式、流計(jì)算等方式對HDFS/KFA進(jìn)行數(shù)據(jù)記錄。其中,對于HDFS而言,其主要表現(xiàn)為物理節(jié)點(diǎn)的分布式數(shù)據(jù)存儲(chǔ),表現(xiàn)為抽象化的文件系統(tǒng)。在Flum進(jìn)行數(shù)據(jù)HDFS記錄時(shí),HDFS物理節(jié)點(diǎn)預(yù)先設(shè)置一定的空間;對于KFA而言,其預(yù)先為數(shù)據(jù)進(jìn)行空間準(zhǔn)備,F(xiàn)lu節(jié)點(diǎn)直接傳輸記錄數(shù)據(jù)到KFA。對于數(shù)據(jù)分析而言,考慮到數(shù)據(jù)更新速度較快,這里選取批處理、流計(jì)算模式進(jìn)行數(shù)據(jù)分析,首先進(jìn)行分析規(guī)則的讀取,按照上述模式進(jìn)行HDFS/KFA數(shù)據(jù)讀取,繼而進(jìn)行數(shù)據(jù)安全分析,以此實(shí)現(xiàn)規(guī)則匹配、數(shù)據(jù)關(guān)聯(lián),這有助于進(jìn)行規(guī)?;瘮?shù)據(jù)的安全挖掘工作,對危險(xiǎn)因素進(jìn)行判斷分析,最終將分析結(jié)果進(jìn)行永久保存。
2? 分布式網(wǎng)絡(luò)構(gòu)件及數(shù)據(jù)存儲(chǔ)架構(gòu)設(shè)計(jì)
上述主要介紹了整體方案設(shè)計(jì)的關(guān)鍵點(diǎn),這里進(jìn)行分布式網(wǎng)絡(luò)構(gòu)件、數(shù)據(jù)存儲(chǔ)架構(gòu)的設(shè)計(jì)工作。對于分布式采集網(wǎng)絡(luò)的設(shè)計(jì),就要盡可能減少客戶端的承擔(dān)任務(wù),同時(shí)還要確保采集網(wǎng)絡(luò)的準(zhǔn)確可靠穩(wěn)定?;诖?,本文在客戶端采集網(wǎng)絡(luò)設(shè)計(jì)主要采取sys腳本,以便高效的進(jìn)行數(shù)據(jù)收集任務(wù),其中采集網(wǎng)絡(luò)層次主要采取二級分布式網(wǎng)絡(luò),并且進(jìn)行不同層次之間的關(guān)聯(lián),最終達(dá)到采集數(shù)據(jù)的高吞吐。
2.1 數(shù)據(jù)源
對于數(shù)據(jù)源而言,主要以簡化需求為主要基礎(chǔ)來進(jìn)行采集任務(wù)。通常來說,采集數(shù)據(jù)可以進(jìn)行分類,即web網(wǎng)絡(luò)日志訪問、操作系統(tǒng)日志、web掃描數(shù)據(jù)、設(shè)備運(yùn)行狀態(tài)。其中,對于web、系統(tǒng)日志,可以通過sys完成數(shù)據(jù)存儲(chǔ),其次采取tcp模式進(jìn)行flu的處理。設(shè)備運(yùn)行狀態(tài)等數(shù)據(jù),可以借助于系統(tǒng)腳本程序,進(jìn)行特征文件的匹配,進(jìn)而獲取內(nèi)存空間、端口信息,之后通過netcat模式進(jìn)行flu的收集工作。
2.2 Flu網(wǎng)絡(luò)
對于采集層次而言,其主要進(jìn)行對各系統(tǒng)的安全數(shù)據(jù)采集工作;匯聚層次則主要對收集到的數(shù)據(jù)進(jìn)行匯集,并且將數(shù)據(jù)分配金各個(gè)不同的組件當(dāng)中,如HDFS、KFA序列。本文所涉及的分布式采集網(wǎng)絡(luò)主要采取Flu代理,以此實(shí)現(xiàn)對系統(tǒng)的日志收集,代理模式具有諸多優(yōu)勢,如其可以以數(shù)據(jù)規(guī)模、資源應(yīng)用情況為基礎(chǔ),繼而有效選擇虛擬機(jī)、物理節(jié)點(diǎn)進(jìn)行空間分配。代理模式的業(yè)務(wù)系統(tǒng)端口可以分成以下四種數(shù)據(jù),即web網(wǎng)絡(luò)日志、系統(tǒng)操作日志、掃描日志、設(shè)備運(yùn)行,其可以充分發(fā)揮攔截器的作用,對數(shù)據(jù)進(jìn)行采集標(biāo)記,繼而進(jìn)行AS模式機(jī)型數(shù)據(jù)序列化處理,傳輸?shù)絽R聚節(jié)點(diǎn),在此過程中,主要依靠數(shù)據(jù)關(guān)聯(lián)來實(shí)現(xiàn)采集、匯聚層次的數(shù)據(jù)對接工作。值得重視的是,針對信息數(shù)據(jù)規(guī)模量大的日志數(shù)據(jù),這里主要采取布置SG,并且對數(shù)據(jù)傳送方向進(jìn)行控制,以便最終達(dá)到兩個(gè)層次之間的數(shù)據(jù)高吞吐。
2.3 數(shù)據(jù)存儲(chǔ)架構(gòu)
對于數(shù)據(jù)存儲(chǔ)架構(gòu)設(shè)計(jì)而言,主要采取HDFS分布系統(tǒng)、KFA序列來進(jìn)行構(gòu)建,這里需要重點(diǎn)以控制吞吐量和數(shù)據(jù)動(dòng)態(tài)實(shí)時(shí)性為主要目標(biāo)。HFDS文件系統(tǒng)的構(gòu)建,則要考慮節(jié)點(diǎn)架構(gòu)和數(shù)據(jù)動(dòng)態(tài)實(shí)時(shí)同步,以便能夠保證信息管理的真實(shí)性,同樣可實(shí)現(xiàn)數(shù)據(jù)的備份;KFA序列則主要通過控制協(xié)調(diào)機(jī)制對關(guān)鍵節(jié)點(diǎn)進(jìn)行熱切換,保障數(shù)據(jù)的可靠性。
3? 安全分析實(shí)踐
3.1 計(jì)算架構(gòu)部署
在規(guī)劃數(shù)據(jù)分析實(shí)現(xiàn)時(shí),本方案根據(jù)不同的吞吐量和分析實(shí)時(shí)性的分析需求,在安全應(yīng)用開發(fā)上做了Spark批處理分析與SparkStreaming流計(jì)算兩種編程模型實(shí)現(xiàn)。分析程序批量或?qū)崟r(shí)讀取各類日志數(shù)據(jù),根據(jù)行為特征或統(tǒng)計(jì)特征檢測攻擊行為,并進(jìn)行數(shù)據(jù)的關(guān)聯(lián)分析,可快速有效的從大量日志數(shù)據(jù)中檢測出針對Web應(yīng)用系統(tǒng)或操作系統(tǒng)攻擊行為并追溯。為保證計(jì)算架構(gòu)的高可靠,采用Spark-Standalone的HA Master的方式實(shí)現(xiàn),各Master節(jié)點(diǎn)上的Curater進(jìn)程實(shí)時(shí)監(jiān)控Master的運(yùn)行狀態(tài),并與Zookeeper集群進(jìn)行通信,將狀態(tài)信息存儲(chǔ)在Zookeeper的ZNode上。
3.2 安全分析應(yīng)用運(yùn)行架構(gòu)
在考慮Spark安全分析應(yīng)用運(yùn)行架構(gòu)部署時(shí),本方案采用了應(yīng)用與計(jì)算平臺(tái)相分離的思路進(jìn)行部署,在Spark分析集群外,專門設(shè)立應(yīng)用管理服務(wù)器,負(fù)責(zé)管理代碼維護(hù)、配置維護(hù)等應(yīng)用管理的工作。當(dāng)分析執(zhí)行時(shí),應(yīng)用服務(wù)器在本機(jī)啟動(dòng)Spark-Driver程序,并將并行分析的task任務(wù)提交到計(jì)算集群的Master節(jié)點(diǎn)。Master節(jié)點(diǎn)再將task派發(fā)到各Worker節(jié)點(diǎn)的Executors下具體執(zhí)行。Spark安全分析應(yīng)用主要包括3個(gè)部分:基于web訪問日志的web攻擊檢測;基于操作系統(tǒng)日志的系統(tǒng)攻擊檢測;基于特征的webshell檢測與溯源。Web攻擊檢測和系統(tǒng)攻擊檢測主要是通過批量或?qū)崟r(shí)讀取相關(guān)日志,識別日志中是否存在網(wǎng)絡(luò)攻擊的行為特征或統(tǒng)計(jì)特征。基于特征的webshell檢測與溯源,主要通過采集端前置的分析腳本掃描web應(yīng)用的文件上傳目錄,還原攻擊者的攻擊行為。
4? 結(jié)語
總而言之,本文所設(shè)計(jì)安全方案以SPK、HDFS、KFA為主要基礎(chǔ),構(gòu)建Flu采集網(wǎng)絡(luò)模式進(jìn)行數(shù)據(jù)的記錄分析,并且該設(shè)計(jì)方案能夠依據(jù)不同的實(shí)際需求進(jìn)行SPK模式的批處理、流模式,實(shí)現(xiàn)高吞吐與安全數(shù)據(jù)挖掘。該方案能高效穩(wěn)定地進(jìn)行大規(guī)模數(shù)據(jù)情況下的有效數(shù)據(jù)挖掘,對于當(dāng)前的信息化時(shí)代而言,具有十分重大的創(chuàng)新意義,不僅能大大簡化技術(shù)人員的運(yùn)維成本,而且對于促進(jìn)新興業(yè)務(wù)的開發(fā)提供了良好的基礎(chǔ),繼而保障信息安全,最終能夠促進(jìn)整個(gè)信息產(chǎn)業(yè)的健康發(fā)展。
參考文獻(xiàn)
[1] 呂欣,韓曉露.大數(shù)據(jù)安全和隱私保護(hù)技術(shù)架構(gòu)研究[J].信息安全研究, 2016,2(3):244-250.
[2] 劉鴻霞,李建清,張銳卿.立體動(dòng)態(tài)的大數(shù)據(jù)安全防護(hù)體系架構(gòu)研究[J]. 信息網(wǎng)絡(luò)安全,2016(9):18-25.
[3] 姚欣.網(wǎng)絡(luò)空間安全大數(shù)據(jù)實(shí)時(shí)計(jì)算平臺(tái)關(guān)鍵技術(shù)研究[D].天津理工大學(xué), 2016.