馬立新,許 報,李黎濱,曹 源,鄭 磊
(國網(wǎng)吉林省電力有限公司信息通信公司,吉林 長春 130000)
現(xiàn)代科學(xué)技術(shù)的持續(xù)更新和進(jìn)步,為當(dāng)前社會各行各業(yè)的發(fā)展提供了良好的前提條件。但是,網(wǎng)絡(luò)攻擊技術(shù)也在不斷發(fā)展,一些黑客采用的攻擊手段隱蔽程度逐漸提升,攻擊行為越來越復(fù)雜,且具有較長的潛伏周期,容易給人們的網(wǎng)絡(luò)安全造成較大威脅?,F(xiàn)階段,基于特征檢測的方式已經(jīng)無法發(fā)揮切實(shí)有效的作用,只能夠檢測出已經(jīng)出現(xiàn)的入侵行為模式,而面對一些新型入侵形式的網(wǎng)絡(luò)攻擊時將難以發(fā)揮積極效果。
大數(shù)據(jù)技術(shù)手段的不斷更新和優(yōu)化,在處理海量數(shù)據(jù)方面的優(yōu)勢不斷凸顯。將它作為網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)構(gòu)建的重要基礎(chǔ),能夠起到良好的效果。網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)中,全面采集和分析各項應(yīng)用信息、實(shí)時網(wǎng)絡(luò)流量信息、資產(chǎn)信息、安全事件信息以及地域信息等方面內(nèi)容,挖掘已經(jīng)收集的各項信息的歷史數(shù)據(jù),開展全面深入的對比分析,將正常的網(wǎng)絡(luò)訪問行為作為重要基準(zhǔn),判斷異常攻擊行為,最終通過可視化形式,針對異常警告和訪問路徑情況進(jìn)行更直觀、準(zhǔn)確的反映,為有效應(yīng)對和處理這些網(wǎng)絡(luò)異常行為提供信息支撐。
以大數(shù)據(jù)為基礎(chǔ)的網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng),在實(shí)際開展系統(tǒng)架構(gòu)設(shè)計工作的過程中,主要包含了以下幾個方面。第一,數(shù)據(jù)采集層。這是網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)實(shí)際運(yùn)行過程中的重要基礎(chǔ)性內(nèi)容,能夠從不同數(shù)據(jù)源出發(fā),針對各項網(wǎng)絡(luò)行為和數(shù)據(jù)進(jìn)行收集。通常情況下,網(wǎng)絡(luò)上部署的WAF、IDS、防病毒以及防火墻等安全設(shè)備和網(wǎng)絡(luò)核心交換機(jī)鏡像網(wǎng)絡(luò)流量等,都是重要的數(shù)據(jù)源[1]。第二,數(shù)據(jù)預(yù)處理層。在全面收集各項數(shù)據(jù)后,需要及時開展初步的過濾工作。這個環(huán)節(jié)主要是針對原始數(shù)據(jù)進(jìn)行初級解析、提取,并開展豐富化和歸一化的處理工作,奠定后續(xù)數(shù)據(jù)分析處理的基礎(chǔ)。第三,數(shù)據(jù)分析層。這個環(huán)節(jié)以預(yù)處理層作為重要前提,主要劃分為實(shí)時分析和離線分析兩個方面。前者從實(shí)時數(shù)據(jù)流處理技術(shù)出發(fā),關(guān)聯(lián)對比和統(tǒng)計各項數(shù)據(jù)信息,按照相關(guān)標(biāo)準(zhǔn)和分析規(guī)則,確定網(wǎng)絡(luò)異常行為告警事件。后者則全面綜合已經(jīng)收集的數(shù)據(jù)和信息再開展分析。第四,數(shù)據(jù)持久化層。從存儲數(shù)據(jù)的實(shí)際類型和使用情況出發(fā),按照其不同的表現(xiàn),在實(shí)際存儲時選擇不同的數(shù)據(jù)庫。第五,展示平臺層。當(dāng)完成各項信息和數(shù)據(jù)的收集和分析工作后,明確網(wǎng)絡(luò)異常行為告警事件,需要針對這些事件進(jìn)行管理和操作,通過挖掘歷史數(shù)據(jù)為后續(xù)環(huán)節(jié)的處理提供信息支撐。展示平臺層是一個人機(jī)交互的Web應(yīng)用,在開展模型管理、信息登記和系統(tǒng)管理相關(guān)工作方面能夠發(fā)揮積極作用[2]。
全面細(xì)致剖析網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)中的各類功能模塊,為充分發(fā)揮該系統(tǒng)的設(shè)計優(yōu)勢和檢測作用提供前提條件。首先,數(shù)據(jù)采集和預(yù)處理模塊。這個模塊與系統(tǒng)架構(gòu)的數(shù)據(jù)采集層和數(shù)據(jù)預(yù)處理層保持著一定的一致性,是全面實(shí)現(xiàn)數(shù)據(jù)采集和接收工作的重要接口。在syslog的幫助下,它能接收流量前段、安全設(shè)備等方面上報的各項數(shù)據(jù),并且發(fā)揮日志文件讀取的作用,更好地匹配和提取相應(yīng)的事件內(nèi)容。該模塊能夠有效開展多種信息的標(biāo)準(zhǔn)化處理工作,主要是針對一些異常事件發(fā)生時間格式、名稱和等級等方面的信息。歸一化處理工作完成后,再推進(jìn)豐富化處理環(huán)節(jié)的良好開展,保證預(yù)處理完成的數(shù)據(jù)已經(jīng)具備了較高的準(zhǔn)確性。其次,實(shí)時異常檢測模塊[3]。這一模塊能夠通過Spark steaming系統(tǒng)科學(xué)有效地處理好實(shí)時事件流,并將已經(jīng)預(yù)處理過的各項數(shù)據(jù)放入kafka系統(tǒng),實(shí)現(xiàn)各項消息數(shù)據(jù)的交換,全面按照相應(yīng)的檢測規(guī)則,細(xì)致檢測各項數(shù)據(jù)中存在的不合理情況。最后,機(jī)器學(xué)習(xí)模塊。這一模塊充分結(jié)合了多種先進(jìn)的流量數(shù)據(jù)查詢和訪問方式構(gòu)建起科學(xué)、完善的業(yè)務(wù)訪問模型,以此為根據(jù)轉(zhuǎn)換為相應(yīng)的檢測規(guī)則,發(fā)揮出實(shí)時異常檢測模塊的優(yōu)勢和作用,實(shí)現(xiàn)各項數(shù)據(jù)內(nèi)容的實(shí)時性分析[4]。
以大數(shù)據(jù)技術(shù)作為重要支撐,構(gòu)建科學(xué)、有效的網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng),需要針對其中涉及的各方面關(guān)鍵性技術(shù)進(jìn)行詳細(xì)剖析,切實(shí)有效提升該項系統(tǒng)的總體利用優(yōu)勢和效果。
數(shù)據(jù)的監(jiān)控、收集和分析,是網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)充分發(fā)揮有效作用的重要內(nèi)容。其中,積極利用大規(guī)模監(jiān)控采集技術(shù),能夠起到良好的效果。首先,優(yōu)先開展主動上報工作。在實(shí)際針對各項信息數(shù)據(jù)進(jìn)行監(jiān)控和收集的過程中,需要將本地代理Agent上報作為主要上報形式,將遠(yuǎn)程探針Probe采集作為輔助形式[5]。主動上報作為信息收集和監(jiān)控的優(yōu)先級內(nèi)容,需要將采集顆粒度不斷深入發(fā)展,從本地數(shù)據(jù)采集的實(shí)時性出發(fā),將其作為重要的優(yōu)勢支撐,盡可能減少一些復(fù)雜安全認(rèn)證環(huán)節(jié)的出現(xiàn)。將網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)設(shè)置為開機(jī)自啟的模式,解放人工勞動力。其次,實(shí)現(xiàn)匯聚壓力分?jǐn)偟男Ч?。監(jiān)控系統(tǒng)本身服務(wù)端需要處理大量的數(shù)據(jù),為了有效減少接入壓力,借助于分布式匯聚技術(shù),減輕系統(tǒng)接入壓力。它主要是按照需求適當(dāng)增加匯聚代理,開展于服務(wù)端和Agent、Probe之間,能夠有效推進(jìn)數(shù)據(jù)預(yù)處理環(huán)節(jié)的良好實(shí)現(xiàn)。面對一些異地環(huán)境和復(fù)雜形勢下的網(wǎng)絡(luò)安全環(huán)境,開展信息采集工作,發(fā)揮分布式采集匯聚技術(shù)的優(yōu)勢,將Agent、Probe通過匯聚代理開展間接性的上報數(shù)據(jù)連接工作,能夠起到良好的實(shí)施效果[6]。
面對海量事件和信息,開展檢索工作需要借助于Elasticsearch技術(shù)。在處理一些經(jīng)常開展頁面交互查詢工作所形成的分析告警結(jié)果數(shù)據(jù)時,將其放置在Elasticsearch中,能夠起到十分有效的作用。對于HDFS來說,Hadoop分布式文件系統(tǒng)在有效存儲大規(guī)模的數(shù)據(jù)集時具有明顯優(yōu)勢。對此,在網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)實(shí)際運(yùn)行過程中,通常會選擇將全面收集的各方面原始數(shù)據(jù)和預(yù)處理結(jié)果數(shù)據(jù)放入HDFS中,并發(fā)揮Spark技術(shù)的作用。Spark技術(shù)是一種快速通用的計算引擎,專門為有效處理大規(guī)模數(shù)據(jù)而開發(fā),能夠更深入地挖掘到歷史數(shù)據(jù)。同時,大數(shù)據(jù)技術(shù)中還包含了Redis和MySQL技術(shù)方面的內(nèi)容。前者是重要的存儲系統(tǒng),在實(shí)時分析從而尋找到相關(guān)聯(lián)信息方面具有良好的效果,多應(yīng)用于關(guān)聯(lián)性較強(qiáng)的信息分析處理過程。后者是關(guān)系數(shù)據(jù)庫,存儲了海量的報告數(shù)據(jù)、統(tǒng)計結(jié)果數(shù)據(jù)和系統(tǒng)管理類數(shù)據(jù)[7]。
實(shí)時流事件處理技術(shù),在網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)中占據(jù)著重要地位,能夠針對實(shí)時性的相關(guān)數(shù)據(jù)和信息流進(jìn)行充分收集和分析,并將其作為重要的信息基礎(chǔ)。將它和既定的檢測規(guī)則、相關(guān)信息數(shù)據(jù)進(jìn)行細(xì)致對比,可發(fā)現(xiàn)一些不合常理的信息和數(shù)據(jù),為準(zhǔn)確判斷告警事件和網(wǎng)絡(luò)異常行為提供基礎(chǔ)。Spark steaming是一種重要的流式處理系統(tǒng),在處理實(shí)時數(shù)據(jù)方面優(yōu)勢明顯,主要體現(xiàn)在高通量和較高容錯率方面,并且能夠和多種數(shù)據(jù)源進(jìn)行合理對接[8]。
網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)從大數(shù)據(jù)基礎(chǔ)出發(fā),充分結(jié)合現(xiàn)階段社會發(fā)展過程中的多項先進(jìn)科學(xué)技術(shù),全面挖掘、分析、關(guān)聯(lián)性對比海量的數(shù)據(jù)和信息,如漏掃結(jié)果、接入網(wǎng)絡(luò)流量、安全日志以及資產(chǎn)信息等,從而能夠更準(zhǔn)確有效地檢測和識別網(wǎng)絡(luò)異常行為。網(wǎng)絡(luò)異常行為分析監(jiān)測系統(tǒng)充分采用了大規(guī)模監(jiān)控采集技術(shù)、大數(shù)據(jù)存儲技術(shù)以及實(shí)時流事件處理技術(shù)等,能夠更好地應(yīng)對一些復(fù)雜度高、隱蔽性高的攻擊行為,保障人們的網(wǎng)絡(luò)安全。需要注意到的是,這項系統(tǒng)的應(yīng)用在檢測無需預(yù)置特征網(wǎng)絡(luò)行為時效果更好。