◆白 碩 徐 輝
大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全分析中的應(yīng)用
◆白 碩 徐 輝
(哈爾濱理工大學(xué)榮成學(xué)院 山東 264300)
在當(dāng)今信息化時代,網(wǎng)絡(luò)安全變得尤為重要,其不但關(guān)乎國民的信息安全,更是可能涉及到國家的安全。特別是最近幾年,世界范圍內(nèi)網(wǎng)絡(luò)安全事故頻繁發(fā)生,給人們的生產(chǎn)生活帶來了極大的困擾,國家也逐漸加強(qiáng)了對信息安全的重視程度,并將其作為了一項重要的國家戰(zhàn)略進(jìn)行落實?,F(xiàn)在的網(wǎng)絡(luò)規(guī)模正在不斷地擴(kuò)大,借助大數(shù)據(jù)來進(jìn)行網(wǎng)絡(luò)安全分析勢在必行。本文就是以網(wǎng)絡(luò)安全的數(shù)據(jù)收集、存儲、檢索和分析等為切入點,詳細(xì)剖析了大數(shù)據(jù)是如何運用于網(wǎng)絡(luò)安全之中的,文章最后通過大數(shù)據(jù)技術(shù)完成了對網(wǎng)絡(luò)安全平臺的一次搭建。
大數(shù)據(jù);網(wǎng)絡(luò)安全分析;攻擊檢測
在網(wǎng)絡(luò)時代比較重要的一年就是2014年,這一年國家正式建立安全委員會,針對處理相關(guān)網(wǎng)絡(luò)及信息安全問題,至此,網(wǎng)絡(luò)安全問題已經(jīng)演變成了一項重要的國家戰(zhàn)略。但是,就現(xiàn)在面臨的情況來看,國家的網(wǎng)絡(luò)信息安全環(huán)境依舊比較惡劣,時常會出現(xiàn)安全攻擊事件,木馬入侵、流氓軟件的植入、私密信息的竊取等惡性行為事件數(shù)量依舊居高不下。在該情況下,如果僅僅依靠防范措施,那是顯得遠(yuǎn)遠(yuǎn)不夠的,嚴(yán)謹(jǐn)?shù)呐挪楹吞崆邦A(yù)警已然是最新安全能力的核心。
以往的安全分析都是基于大數(shù)據(jù)的情況下進(jìn)行的,這種形式在現(xiàn)在已有普遍的應(yīng)用,最典型的就是入侵檢測、安全審計等。但是現(xiàn)在互聯(lián)網(wǎng)的寬帶化趨勢,以及應(yīng)用多樣化趨勢,都使得各種安全數(shù)據(jù)逐年增加。如果還是依靠原來的分析方法顯然不能夠處理現(xiàn)在的問題。與此同時,很多新興的安全隱患等也都對安全檢測帶來了新的挑戰(zhàn)。大數(shù)據(jù)的具體特點基本可以概括為四點,其依次是:volume、variety、velocity、value。在此基礎(chǔ)上的安全分析,一般都是具有很高的效率,而且成本也不高,同時還能夠儲存大容量,有鑒于此,即可以完成對大量信息的處理。在當(dāng)下,怎么實現(xiàn)將大數(shù)據(jù)技術(shù)使用在信息安全領(lǐng)域已經(jīng)變成了世界范圍內(nèi)研討的重點。
網(wǎng)絡(luò)構(gòu)架經(jīng)過多年的發(fā)展變得越來越繁雜,由此使得安全數(shù)據(jù)來源更加多樣化,數(shù)量上也在不斷增加,最簡單的就是從數(shù)量級上來看,之前是在TB數(shù)量級現(xiàn)在已經(jīng)過渡到了PB數(shù)量級,內(nèi)容上也更加注重細(xì)節(jié),維度也變得更加寬廣起來;各種網(wǎng)絡(luò)設(shè)施在功能上都在不斷地優(yōu)化,數(shù)據(jù)傳輸能力都在不斷地加強(qiáng),對各種信息的收集能力也在不斷地強(qiáng)化;各種網(wǎng)絡(luò)安全隱患依舊存在,而且問題還比較嚴(yán)重。除了上文提到的一些情況,還有一些有計劃性的惡意攻擊行為比較嚴(yán)重,這就使得在進(jìn)行網(wǎng)絡(luò)安全維護(hù)時,必須要考慮到信息多樣性和復(fù)雜性。
網(wǎng)絡(luò)安全信息的剖析主要是依靠載體進(jìn)行的,而這種信息的載體通常就是日志和流量兩大類,然后資產(chǎn)、漏洞、訪問等將作為輔助信息作為參考。通過引入大數(shù)據(jù)技術(shù)可以為行業(yè)帶來新的活力,該技術(shù)的原理就是,首先將日志與流量數(shù)據(jù)收集在一個地址上,然后使用有效的采集、儲存、分析和檢索技術(shù),在時間和效果上提高分析效率。
在進(jìn)行采集時一般都是借助工具實現(xiàn)的,通常使用的是Chukwa等工具,具體的方法就是使用分布采集,作用對象就是日志信息,速度基本可以達(dá)到每秒數(shù)百兆;借助數(shù)據(jù)鏡像能夠更好地實現(xiàn)目標(biāo)。
在當(dāng)前的網(wǎng)絡(luò)時代,數(shù)據(jù)種類和應(yīng)用形式都是紛繁多樣的,如果想要實現(xiàn)多種數(shù)據(jù)儲存,同時還要提高信息的搜索和處理速度,就應(yīng)該進(jìn)行分類處理,使用不同的方法存儲不同的信息數(shù)據(jù)。
在進(jìn)行安全數(shù)據(jù)的搜索時,一般運用的是基于MapReduce的檢索框架,具體原理就是將查詢語言的每個分析節(jié)點進(jìn)行加工,然后借助分布式的并行計算方法進(jìn)行處理,繼而實現(xiàn)數(shù)據(jù)檢索速度的提高。
在進(jìn)行數(shù)據(jù)分析時,一般是基于Storm或者Spark等流式計算架構(gòu)來進(jìn)行的,其中還會使用到復(fù)雜事件處理技術(shù),這也是問題處理的關(guān)鍵所在,再然后就是確定電聯(lián)分析計算方案。需要注意的是以上都是對實時數(shù)據(jù)的處理,包括信息實時監(jiān)控和異常捕捉等。其次,對于非實時數(shù)據(jù)的處理,一般利用的是Hadoop架構(gòu),在計算方法上使用的是HDFS分布式存儲和MapReduce分布式計算。
由上文介紹不難看出,大數(shù)據(jù)技術(shù)的優(yōu)點在于,可以使得存儲和處理速度實現(xiàn)大幅度的提高,在更短的時間內(nèi)找到多源異構(gòu)數(shù)據(jù),關(guān)聯(lián)出系統(tǒng)內(nèi)部更多的安全隱患、以及各種攻擊性特征等。舉例而言,在此我們將僵尸網(wǎng)絡(luò)作為分析對象,其不但可以有效的整合流量與DNS的訪問特性,還能夠?qū)?shù)據(jù)源進(jìn)行深層次的拓展和剖析,把所有分組數(shù)據(jù)整合起來,對溯源數(shù)據(jù)和莫管數(shù)據(jù)進(jìn)行攻擊。再舉一個通俗例子,這時,我們找到了一個受到入侵,或者存在安全隱患的電腦主機(jī),既能夠關(guān)聯(lián)出在大系統(tǒng)下,其他的端口是不是存在一樣的問題,這樣做的好處就是能夠提前找到安全隱患,維修人員就能夠盡早的防護(hù)或者是處理。
我們對網(wǎng)絡(luò)安全平臺從下到上進(jìn)行介紹,它們依次是數(shù)據(jù)采集層、大數(shù)據(jù)存儲層、數(shù)據(jù)挖掘分析層、數(shù)據(jù)呈現(xiàn)層。對于數(shù)據(jù)采集層而言,它的作用就是借助分布式方法收集使用者信息、發(fā)生的事件信息以及安全威脅等信息。大數(shù)據(jù)存儲層關(guān)鍵就是體現(xiàn)在存儲上,不僅能夠?qū)崿F(xiàn)海量存儲,還能夠保證存儲的時間,而且還可以完成結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)統(tǒng)一存儲,其中,均衡算法的引入將有效地將數(shù)據(jù)信息散布于文件系統(tǒng)上,這樣做的好處在于,在進(jìn)行下一次的數(shù)據(jù)檢索時可以節(jié)省大量的時間。對于數(shù)據(jù)挖掘分析層,就是完成數(shù)據(jù)的分析關(guān)聯(lián)、對外界情景的解析、以及對特征的尋覓,通過這種方式來找出安全事件,一旦系統(tǒng)中出現(xiàn)不正常網(wǎng)絡(luò)行為,就能夠快速地診斷出來,與此同時,還可以對數(shù)據(jù)信息進(jìn)行檢索和定位。最后一點的數(shù)據(jù)呈現(xiàn)層是對大數(shù)據(jù)結(jié)果進(jìn)行可視化展現(xiàn),用各種不同的途徑來體現(xiàn)網(wǎng)絡(luò)安全狀態(tài)。
(1)數(shù)據(jù)采集技術(shù)。該平臺的數(shù)據(jù)采集融合了三種不同的形式,他們分別是Flume、Kafka、Storm。Flume的作用就是實現(xiàn)大規(guī)模數(shù)據(jù)的收集、整合與傳送,它不論是在可靠性上,還是在實用性上都是極為良好的,通過定制的數(shù)據(jù),用戶能夠找到來自不同端口的數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行簡單的加工,再傳輸?shù)綌?shù)據(jù)定制方。
針對變化多樣的流式數(shù)據(jù)展開加工,一般將Kafka作為一種緩存來使用的。Kafka中成分復(fù)雜,不僅有很多生產(chǎn)者,而且還有諸多代理與消費者,在全局層面上進(jìn)行全方位的邏輯處理,使得其變成往來頻繁的分布式發(fā)布訂閱系統(tǒng)。針對其中的數(shù)據(jù)管理問題,Kafka使用了Zookeeper框架進(jìn)行處理,由此達(dá)成負(fù)載的均衡與協(xié)調(diào)。
(2)數(shù)據(jù)存儲技術(shù)。對于已經(jīng)采集好的數(shù)據(jù)信息一般都是借助HDFS來存儲的,HDFS分布式文件系統(tǒng)優(yōu)點顯著,由上文所述,其首先具有極為強(qiáng)大的吞吐功能,其次就是有很高的容錯性,每個數(shù)據(jù)節(jié)點都能夠存放數(shù)據(jù)文件,經(jīng)過劃分我們以64兆字節(jié)作為一個基礎(chǔ)的存儲單位。在一個時間段內(nèi)是不能同時訪問一定數(shù)量的文件的,如果非要執(zhí)行這個操作,就極其容易損傷系統(tǒng)性能。故而,如果要實現(xiàn)高效率的數(shù)據(jù)處理,就需要用到HDFS數(shù)據(jù)塊,對所有采集得到的數(shù)據(jù)進(jìn)行統(tǒng)一的收集,然后進(jìn)行有效的處理,將文件大小控制在64兆字節(jié)。
(3)數(shù)據(jù)分析技術(shù)。在該技術(shù)中,一般通過Hive實現(xiàn)數(shù)據(jù)的統(tǒng)計與分析。具體就是運用Hive對API展開包裝,然后通過原先預(yù)制的插件進(jìn)行數(shù)據(jù)的處理、分析與統(tǒng)計。當(dāng)涉及到事件流的關(guān)聯(lián)與分析時,就會運用到CPE,他所作的處理就是將系統(tǒng)數(shù)據(jù)仿制成各種事件,然后剖析各事件之間的相互關(guān)聯(lián),之后搭建各種事件關(guān)系序列庫,用以實現(xiàn)對事件難易程度的轉(zhuǎn)變,以此從海量的信息庫中找出其中的網(wǎng)絡(luò)安全隱患。
綜上所述,通過在網(wǎng)絡(luò)安全中運用大數(shù)據(jù)技術(shù),能夠更好地達(dá)成精準(zhǔn)、快速、低成本的目的。在當(dāng)前階段,行業(yè)內(nèi)部都在研究,怎么實現(xiàn)網(wǎng)絡(luò)安全中大數(shù)據(jù)技術(shù)的高效運用。筆者通過大量網(wǎng)絡(luò)漏洞與攻擊實例為出發(fā)點,探討了大數(shù)據(jù)技術(shù)在該領(lǐng)域的采集、存儲、檢索以及分析的應(yīng)用手段,切實有效地優(yōu)化了網(wǎng)絡(luò)安全防御的精準(zhǔn)度和高效率。
[1]王帥,汪來富,金華敏等.網(wǎng)絡(luò)安全分析中的大數(shù)據(jù)技術(shù)應(yīng)用[J].電信科學(xué),2015.
[2]孫玉.淺談網(wǎng)絡(luò)安全分析中的大數(shù)據(jù)技術(shù)應(yīng)用[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2017.
[3]賈衛(wèi).網(wǎng)絡(luò)安全分析中的大數(shù)據(jù)技術(shù)應(yīng)用探討[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2016.