楊軼博,張欣海
(中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院,北京 150080)
關(guān)鍵字:大數(shù)據(jù)技術(shù);網(wǎng)絡(luò)安全分析;應(yīng)用
網(wǎng)絡(luò)已經(jīng)走進(jìn)了千家萬(wàn)戶,對(duì)網(wǎng)絡(luò)安全的分析是一項(xiàng)急需解決的問(wèn)題。網(wǎng)絡(luò)安全的影響利很大,與其他相關(guān)領(lǐng)域聯(lián)系緊密,公民的個(gè)人信息,在企業(yè)生產(chǎn)和業(yè)務(wù)活動(dòng)的發(fā)展中形成和使用的商業(yè)秘密信息,以及由國(guó)家安全機(jī)構(gòu)管理的機(jī)密信息都與網(wǎng)絡(luò)密切相關(guān)。大數(shù)據(jù)技術(shù)的發(fā)展對(duì)于增加公眾對(duì)我國(guó)網(wǎng)絡(luò)安全問(wèn)題的注意起著非常重要的作用。因此在特定歷史影響下解釋和分析大數(shù)據(jù)技術(shù)的引入和應(yīng)用,支持網(wǎng)絡(luò)時(shí)代的深入發(fā)展,在為日常生產(chǎn)提供穩(wěn)定、充足的技術(shù)支持的前提下,推動(dòng)了我國(guó)現(xiàn)代化發(fā)展的步伐。
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)是引導(dǎo)和支持當(dāng)前階段以及未來(lái)時(shí)期我國(guó)經(jīng)濟(jì)社會(huì)建設(shè)發(fā)展的重要手段,它對(duì)人們的日常生活方式有一定的引導(dǎo)作用,而且也影響著人們的生產(chǎn)模式,此外,它還可以充分動(dòng)員并激發(fā)各種市場(chǎng)參與者的積極性,為我國(guó)的現(xiàn)代發(fā)展提供堅(jiān)實(shí)而充分的動(dòng)力支撐條件。
同時(shí),我們應(yīng)該理性而清醒地關(guān)注計(jì)算機(jī)網(wǎng)絡(luò)信息技術(shù)特別是移動(dòng)互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,應(yīng)用程序的發(fā)展和普及,網(wǎng)絡(luò)技術(shù)環(huán)境中每一天都會(huì)產(chǎn)生以及更新原有的數(shù)據(jù)信息資源,這些信息資源具備內(nèi)容多樣以及獲得的途徑不同等基本特征。它們包含并混合了一定百分比的數(shù)據(jù)信息,這些信息可以是個(gè)人信息,以及在公民和企業(yè)的生產(chǎn)和經(jīng)營(yíng)活動(dòng)中形成和使用的商業(yè)秘密信息,以及竊取商業(yè)機(jī)密的有害信息。有害信息還包含一定數(shù)量的計(jì)算機(jī)病毒程序。在嚴(yán)重的網(wǎng)絡(luò)安全問(wèn)題的情況下,這就對(duì)網(wǎng)絡(luò)安全分析人員的工作能力有很高的要求[1]。
作為近年來(lái)興起的一種數(shù)據(jù)信息處理技術(shù),大數(shù)據(jù)技術(shù)可以在大規(guī)模,各種特征,各種結(jié)構(gòu)的數(shù)據(jù)信息資源的收集和處理過(guò)程中展現(xiàn)其獨(dú)特性。隨著應(yīng)用技術(shù)的發(fā)展以及未來(lái)大數(shù)據(jù)技術(shù)的不斷發(fā)展和創(chuàng)新,網(wǎng)絡(luò)安全分析領(lǐng)域的介紹和應(yīng)用將為我國(guó)高質(zhì)量的計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)系統(tǒng)和提供支持[2]。
Hadoop檢測(cè)框架的構(gòu)建。Hadoop系統(tǒng)基于Hadoop框架之上,構(gòu)建了網(wǎng)絡(luò)安全漏洞檢測(cè)執(zhí)行環(huán)境。在利用大數(shù)據(jù)技術(shù)對(duì)網(wǎng)絡(luò)信息數(shù)據(jù)進(jìn)行處理時(shí),首要就是先找到網(wǎng)絡(luò)漏洞的位置,這可以有效評(píng)估系統(tǒng)自身安全的承載能力。在此框架中,信息挖掘是系統(tǒng)檢測(cè)的重要環(huán)節(jié),可以找到隱藏在網(wǎng)絡(luò)環(huán)境中的漏洞數(shù)據(jù),并且快速識(shí)別異常數(shù)據(jù)[3]。
2.2.1 數(shù)據(jù)采集技術(shù)
該平臺(tái)結(jié)合了Flume,Kafka和Storm來(lái)完成數(shù)據(jù)收集。使用Flume完成大型數(shù)據(jù)信息的收集、集成和傳輸,主要優(yōu)勢(shì)是強(qiáng)大的可靠性,使用自定義數(shù)據(jù)信息的分散形式等等,它可以完全掌握發(fā)件人的各種數(shù)據(jù)信息并可以處理數(shù)據(jù),然后發(fā)送給定制方。對(duì)于活躍流失數(shù)據(jù)的處理,Kafka可用作數(shù)據(jù)收集和緩存處理的流數(shù)據(jù)。Kafka可以確定相關(guān)的生產(chǎn)商,消費(fèi)者,代理商的信息,它是一種邏輯分析服務(wù),可以掌握邏輯信息以構(gòu)建高吞吐量的分布式訂閱系統(tǒng)[4]。
借助大數(shù)據(jù)技術(shù)開(kāi)展數(shù)據(jù)信息收集環(huán)節(jié),通過(guò)在網(wǎng)絡(luò)安全分析過(guò)程中引入應(yīng)用大數(shù)據(jù)技術(shù),支持實(shí)現(xiàn)各種數(shù)據(jù)信息資源的離線收集技術(shù)目標(biāo),特別是包括提取技術(shù)和轉(zhuǎn)換技術(shù)。同時(shí),在網(wǎng)絡(luò)安全分析過(guò)程中引入和應(yīng)用大數(shù)據(jù)技術(shù)可以支持實(shí)現(xiàn)對(duì)各種數(shù)據(jù)和信息資源的實(shí)時(shí)收集和獲取目標(biāo),通過(guò)提供完整而可靠的技術(shù)功能,不僅可以實(shí)現(xiàn)Flume和Kafka和Storm的技術(shù)功能,而且可以收集和緩沖各種數(shù)據(jù)和信息資源的目標(biāo),并最終支持各種數(shù)據(jù)和信息資源以實(shí)現(xiàn)高質(zhì)量的在線處理程序。此外,在引入和使用大數(shù)據(jù)技術(shù)執(zhí)行網(wǎng)絡(luò)安全分析的過(guò)程中,還可以使用搜尋器技術(shù)功能來(lái)完成Internet數(shù)據(jù)信息的收集和獲取[5]。
2.2.2 數(shù)據(jù)存儲(chǔ)技術(shù)
借助HDFS,可以根據(jù)需要收集和處理數(shù)據(jù),從而具有較高的實(shí)際應(yīng)用價(jià)值。根據(jù)需要確定元數(shù)據(jù)節(jié)點(diǎn)系統(tǒng),然后將這些數(shù)據(jù)信息存儲(chǔ)在系統(tǒng)中以使其在使用過(guò)程中可用。元數(shù)據(jù)節(jié)點(diǎn)和數(shù)據(jù)文件以比較的形式存在,如果時(shí)間相同,訪問(wèn)數(shù)據(jù)量太大,則系統(tǒng)的各項(xiàng)功能無(wú)法實(shí)現(xiàn),嚴(yán)重影響網(wǎng)絡(luò)運(yùn)行的安全性。因此,為了提高數(shù)據(jù)分析的質(zhì)量和效率,該平臺(tái)使用的存儲(chǔ)單元是HDFS數(shù)據(jù)塊存儲(chǔ),可以確保在合并和處理所有數(shù)據(jù)后,每個(gè)文件的大小可以達(dá)到64MB[6]。
利用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)信息存儲(chǔ),通過(guò)在網(wǎng)絡(luò)安全分析過(guò)程中引入和應(yīng)用大數(shù)據(jù)技術(shù),可以支持按規(guī)模級(jí)別和類型級(jí)別實(shí)際收集和獲取各種數(shù)據(jù)和信息資源。以此為基礎(chǔ),應(yīng)用適當(dāng)且合理的技術(shù)格式以實(shí)現(xiàn)存儲(chǔ)技術(shù)目標(biāo)。對(duì)于原始形式的數(shù)據(jù)信息資源,一般選擇GBase技術(shù)或HBase技術(shù)的形式進(jìn)行存儲(chǔ)和處理即可。當(dāng)有實(shí)時(shí)性要求時(shí),快速分析和處理的數(shù)據(jù)和信息資源,通常是有Storm算法處理程序或Spark算法處理程序來(lái)完成,以流式形式存儲(chǔ)和處理數(shù)據(jù)以及信息資源[7]。
該平臺(tái)的功能是完成系統(tǒng)中各種數(shù)據(jù)的分析和處理,以用戶要求的形式反映出來(lái),使用戶使用起來(lái)更方便,以確保更有效地使用數(shù)據(jù)。在大多數(shù)情況下,數(shù)據(jù)挖掘和分析是基于Mahout系統(tǒng)的,該系統(tǒng)基于Hadoop機(jī)器學(xué)習(xí)。CPE 可以實(shí)現(xiàn)在系統(tǒng)中事件流關(guān)聯(lián)使用,則可以將其實(shí)現(xiàn)為,并根據(jù)應(yīng)用程序的需要快速生成數(shù)據(jù)??梢詸z查相關(guān)信息以及構(gòu)建成序列庫(kù)的形式,可以將所有數(shù)據(jù)實(shí)現(xiàn)必要的轉(zhuǎn)換,可以從大量數(shù)據(jù)中識(shí)別所需的隱藏危險(xiǎn)信息,還可以根據(jù)真實(shí)狀況對(duì)有害信息實(shí)施安全分析和處理[8]。
大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全數(shù)據(jù)分析中的作用可以分為兩個(gè)方面主要包括下面幾種:首先,可以進(jìn)行實(shí)時(shí)數(shù)據(jù)處理;換句話說(shuō),可以在最短的時(shí)間內(nèi)找到問(wèn)題,并及時(shí)進(jìn)行監(jiān)視,處理和分析數(shù)據(jù)信息的功能。其次,它可以處理和分析歷史數(shù)據(jù)。歷史數(shù)據(jù)分析花費(fèi)的時(shí)間長(zhǎng)短不是很嚴(yán)格,因此通過(guò)分布式存儲(chǔ)和計(jì)算,可以使用各種數(shù)據(jù)處理方法來(lái)完成更深入的數(shù)據(jù)處理。歷史數(shù)據(jù)分析主要用于調(diào)查攻擊源和網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。通過(guò)在網(wǎng)絡(luò)安全分析過(guò)程中引入應(yīng)用大數(shù)據(jù)技術(shù),可以完成各種數(shù)據(jù)處理。不僅可以支持對(duì)基礎(chǔ)數(shù)據(jù)和信息資源元素的全面深入的挖掘,還可以對(duì)實(shí)際存在的各種類型的Internet信息以及風(fēng)險(xiǎn)和技術(shù)漏洞進(jìn)行進(jìn)行全面,有效和深入的分析、處理、梳理、檢查和修復(fù)。從內(nèi)部僵尸網(wǎng)絡(luò)技術(shù)系統(tǒng)中檢測(cè),收集源數(shù)據(jù)信息,并不斷擴(kuò)展基本信息、技術(shù)功能,例如數(shù)據(jù)信息的搜索和獲取區(qū)域源通道,搜索和驗(yàn)證計(jì)算機(jī)主機(jī)設(shè)備內(nèi)部是否存在外部入侵風(fēng)險(xiǎn)因素,并實(shí)現(xiàn)基礎(chǔ)網(wǎng)絡(luò)技術(shù)系統(tǒng)構(gòu)建安全保護(hù)的目標(biāo)。在現(xiàn)代網(wǎng)絡(luò)安全分析工作實(shí)施過(guò)程中,要特別注意大數(shù)據(jù)技術(shù)的運(yùn)用,有必要對(duì)網(wǎng)絡(luò)安全具體發(fā)展過(guò)程中遇到的各種主客觀因素進(jìn)行綜合歸納和分類,采取切實(shí)有效的方法和技術(shù)手段獲得最高的效益[9]。
以大數(shù)據(jù)技術(shù)為基礎(chǔ)的網(wǎng)絡(luò)安全平臺(tái)的建設(shè),離不開(kāi)對(duì)數(shù)據(jù)的存儲(chǔ)和分析,數(shù)據(jù)存儲(chǔ)是建立在收集數(shù)據(jù)信息并通過(guò)HDFS進(jìn)行存儲(chǔ)基礎(chǔ)之上,數(shù)據(jù)分析主要是通過(guò)相關(guān)軟件獲取數(shù)據(jù)后,使用HiceQL語(yǔ)言進(jìn)行數(shù)據(jù)分析。根據(jù)網(wǎng)絡(luò)平臺(tái)的架構(gòu),它是有多個(gè)層次組成,包括數(shù)據(jù)收集層,存儲(chǔ)層,分析層和處理層。不同層次執(zhí)行不同任務(wù)。例如,收集層的任務(wù)是收集各種數(shù)據(jù)信息,存儲(chǔ)層的作用是用來(lái)對(duì)搜集的數(shù)據(jù)進(jìn)行存儲(chǔ),分析層的職責(zé)是挖掘和研究數(shù)據(jù)之間的相互連續(xù)以及特點(diǎn),處理層的責(zé)任是負(fù)責(zé)數(shù)據(jù)轉(zhuǎn)換以可視形式呈現(xiàn)信息,反映網(wǎng)絡(luò)安全的實(shí)時(shí)情況[10-11]。
綜上所述,表明大數(shù)據(jù)技術(shù)對(duì)于網(wǎng)絡(luò)安全技術(shù)起著非常重要的作用,大數(shù)據(jù)具備效率高、實(shí)用性強(qiáng)等優(yōu)勢(shì),對(duì)于用戶對(duì)大數(shù)據(jù)信息資源處理的要求有強(qiáng)大的支持作用,可以很好的適應(yīng)用戶的要求,包括信息存儲(chǔ)方面,對(duì)于特定網(wǎng)絡(luò)安全分析工作的整合,它可以提供完全科學(xué),準(zhǔn)確,全面的數(shù)據(jù)和信息,從而保障特定網(wǎng)絡(luò)安全分析工作的順利進(jìn)行,并取得良好的效果。目前,將大數(shù)據(jù)的有效化、成熟化運(yùn)用到網(wǎng)絡(luò)安全分析方面,是很多人非常關(guān)注的一個(gè)問(wèn)題?,F(xiàn)階段,在網(wǎng)絡(luò)安全工作方面運(yùn)用到大數(shù)據(jù)技術(shù)的主要有在進(jìn)行查詢工作時(shí)、儲(chǔ)存信息時(shí)、對(duì)數(shù)據(jù)進(jìn)行研究分析時(shí)還有在數(shù)據(jù)處理過(guò)程中。這樣在進(jìn)行數(shù)據(jù)處理時(shí)結(jié)果會(huì)更加準(zhǔn)確,并且增加了所有工作的工作效率,為后面進(jìn)行數(shù)據(jù)傳輸打好基礎(chǔ),也保障了數(shù)據(jù)存儲(chǔ)過(guò)程中的安全以及有效。