余文杰,馮中華,萬(wàn) 抒
(中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610041)
傳統(tǒng)的安防體系實(shí)現(xiàn)了終端、網(wǎng)絡(luò)設(shè)備、安防設(shè)備和應(yīng)用系統(tǒng)的統(tǒng)一納管,但隨著云計(jì)算、大數(shù)據(jù)等新技術(shù)的發(fā)展,IT 架構(gòu)和服務(wù)模式不斷發(fā)生變化,傳統(tǒng)的安防體系如今面臨著諸多問(wèn)題:核心軟硬件基礎(chǔ)設(shè)施中存在多種安全漏洞,網(wǎng)絡(luò)設(shè)備預(yù)制后門也層出不窮;安防設(shè)備呈現(xiàn)“孤島化”,各自為戰(zhàn);各類安全告警事件,數(shù)據(jù)量大、誤報(bào)率高;各類攻擊日益工具化、自動(dòng)化、組織化,等等。傳統(tǒng)網(wǎng)絡(luò)安全防護(hù)體系以被動(dòng)響應(yīng)為主,缺乏對(duì)抗能力和相互關(guān)聯(lián)的分析能力,導(dǎo)致安全預(yù)判能力不足。此外,傳統(tǒng)的安防體系的安全防護(hù)重點(diǎn)大多集中在修補(bǔ)漏洞和加固安全基礎(chǔ)設(shè)施,但這種純粹的靜態(tài)防御措施無(wú)法阻止黑客的蓄意攻擊,更無(wú)法阻止漫無(wú)目的的隨機(jī)性攻擊。
在此背景下,本文提出了一種基于大數(shù)據(jù)的安全防護(hù)體系建設(shè)思路。在具體實(shí)踐的過(guò)程中,先通過(guò)數(shù)據(jù)采集、匯聚、清洗、轉(zhuǎn)換、加工、存儲(chǔ)、治理等流程,利用大數(shù)據(jù)的技術(shù)手段與方法,構(gòu)建安全數(shù)據(jù)中臺(tái),包括安全數(shù)據(jù)中臺(tái)和安全資源中臺(tái)。然后,通過(guò)數(shù)據(jù)挖掘與融合關(guān)聯(lián)分析,來(lái)實(shí)時(shí)感知網(wǎng)絡(luò)安全運(yùn)行狀況和安全態(tài)勢(shì),預(yù)測(cè)可能要發(fā)生的攻擊,監(jiān)測(cè)和發(fā)現(xiàn)正在發(fā)生的攻擊,一旦發(fā)現(xiàn)攻擊就自動(dòng)響應(yīng),協(xié)同分布在網(wǎng)絡(luò)中的網(wǎng)絡(luò)安全設(shè)備和軟件對(duì)攻擊進(jìn)行處置,支撐應(yīng)急響應(yīng)指揮。
近年來(lái),業(yè)界已經(jīng)提出了多種大數(shù)據(jù)安防體系建設(shè)思路,但目前,仍然處于不斷地豐富和完善的階段。研究發(fā)現(xiàn),大部分安防體系設(shè)計(jì)思路主要圍繞以下4 點(diǎn)展開(kāi):
(1)安全資源:安全策略的執(zhí)行主體,對(duì)接信息通信技術(shù)(Information and Communications Technology,ICT)環(huán)境資源并提供策略執(zhí)行的結(jié)果信息反饋。
(2)安全資源管控系統(tǒng):決策指令(安全策略)的執(zhí)行傳達(dá)者,通過(guò)對(duì)安全資源的能力調(diào)度及策略下發(fā),實(shí)現(xiàn)“風(fēng)險(xiǎn)可控”。
(3)安全信息感知系統(tǒng):接收安全資源的數(shù)據(jù),提供決策依據(jù)和決策執(zhí)行的反饋信息,實(shí)現(xiàn)“風(fēng)險(xiǎn)可知”。
(4)安全運(yùn)營(yíng)決策系統(tǒng):基于安全信息,通過(guò)安全運(yùn)行進(jìn)行安全決策,實(shí)現(xiàn)組織安全目標(biāo)“風(fēng)險(xiǎn)可管”。
針對(duì)大數(shù)據(jù)安防體系設(shè)計(jì)思路分析,何健等人[1]提出了構(gòu)建適用于大數(shù)據(jù)環(huán)境的、立體動(dòng)態(tài)的多層次安全防護(hù)體系;劉曉軍等人[2]從剖析大數(shù)據(jù)通用技術(shù)架構(gòu)入手,總結(jié)了數(shù)據(jù)處理的相關(guān)流程,分析和對(duì)比了數(shù)據(jù)中臺(tái)并總結(jié)了其適用范圍和優(yōu)缺點(diǎn),最后聚焦多級(jí)架構(gòu)模式下數(shù)據(jù)安全融合技術(shù)問(wèn)題,提出了相應(yīng)的解決辦法;張翠翠等人[3]提出了基于數(shù)據(jù)中臺(tái)的數(shù)據(jù)安全分級(jí)防護(hù)方案,給出了數(shù)據(jù)中臺(tái)“零信任”安全防護(hù)總體架構(gòu);賴新等人[4]構(gòu)建了基于云計(jì)算用戶層、數(shù)據(jù)傳輸層和云計(jì)算服務(wù)層的數(shù)據(jù)安全防護(hù)體系。經(jīng)過(guò)匯總整理,本文給出了安防體系的參考框架,如圖1 所示。
由圖1 可以看出,基于大數(shù)據(jù)的安全防護(hù)體系建設(shè)理念包括以下幾點(diǎn):
圖1 安防體系參考框架
(1)智能感知系統(tǒng):由安防設(shè)備、網(wǎng)絡(luò)設(shè)備、物聯(lián)網(wǎng)(Internet of Things,IoT)設(shè)備等構(gòu)成,采集與網(wǎng)絡(luò)安全相關(guān)的數(shù)據(jù)和信息,就像人類的眼睛、耳朵、鼻子,源源不斷地把脫敏后的安全數(shù)據(jù)傳輸?shù)健鞍踩竽X”,由“安全大腦”進(jìn)行智能的分析和決策。
(2)大數(shù)據(jù)湖:存儲(chǔ)網(wǎng)絡(luò)安全大數(shù)據(jù)的平臺(tái),相當(dāng)于人的記憶中樞。
(3)安全知識(shí)體系:包括各種威脅情報(bào)、安全資源庫(kù)、安全分析模型等等,是用于檢測(cè)、識(shí)別、分析、溯源各類網(wǎng)絡(luò)安全威脅的知識(shí)庫(kù)。
(4)智能分析系統(tǒng):采用人工智能、數(shù)據(jù)挖掘、可視化計(jì)算等一系列分析技術(shù),實(shí)現(xiàn)對(duì)安全威脅的分析研判和處置。
(5)智能學(xué)習(xí)系統(tǒng):具備自我學(xué)習(xí)、自我演進(jìn)的能力,實(shí)現(xiàn)對(duì)新的網(wǎng)絡(luò)安全威脅、攻擊方法等的識(shí)別功能。
(6)人機(jī)智能交互輔助決策系統(tǒng):利用安全專家經(jīng)驗(yàn),通過(guò)智能人機(jī)交互方式,實(shí)現(xiàn)對(duì)安全威脅檢測(cè)、分析、溯源等的輔助決策。
在參考了上述關(guān)于安防建設(shè)體系的設(shè)計(jì)思路與建設(shè)理念后,結(jié)合實(shí)踐特性,本文有針對(duì)性地提出了安全大數(shù)據(jù)平臺(tái)的體系架構(gòu),如圖2 所示。該體系架構(gòu)從邏輯層次上劃分為安全底座、安全中臺(tái)、服務(wù)總線、安全應(yīng)用4 個(gè)層次。
圖2 安全大數(shù)據(jù)平臺(tái)架構(gòu)
總體而言,安全大數(shù)據(jù)平臺(tái)架構(gòu)可概括為“一腦雙核,四輪驅(qū)動(dòng)”,具體由安全數(shù)據(jù)中臺(tái)、安全資源中臺(tái)、數(shù)據(jù)治理、安全事件、國(guó)家標(biāo)準(zhǔn)和技術(shù)協(xié)會(huì)(National Institute of Standards and Technology,NIST)的網(wǎng)絡(luò)安全框架(Cyber Security Framework,CSF)、數(shù)據(jù)驅(qū)動(dòng)6 個(gè)部分組成。其中“一腦雙核”是指以安全數(shù)據(jù)中臺(tái)和安全資源中臺(tái)為核心構(gòu)建的智能感知控制體系:數(shù)據(jù)中臺(tái)提供安全數(shù)據(jù)采集、處理、分析、組織和集成的通道;資源中臺(tái)則是以數(shù)據(jù)中臺(tái)為基礎(chǔ),為各種安全應(yīng)用提供數(shù)據(jù)基礎(chǔ)服務(wù)能力。智能感知控制體系以資產(chǎn)為核心構(gòu)建,不斷流動(dòng)的安全事件經(jīng)過(guò)安全大腦分析判斷之后反饋給安全管控平臺(tái),通過(guò)策略管控手段作用到資產(chǎn)上,形成了管理與控制的通道。
“四輪驅(qū)動(dòng)”是指以數(shù)據(jù)治理為手段,以安全事件為中心,以NIST 的CSF 為指導(dǎo),以場(chǎng)景化驅(qū)動(dòng)豐富的安全應(yīng)用:數(shù)據(jù)治理是指構(gòu)建安全事件主數(shù)據(jù)體系,如資產(chǎn)、病毒、漏洞、行為、威脅情報(bào)庫(kù)、安全資源庫(kù)等;以安全事件為中心,持續(xù)動(dòng)態(tài)檢測(cè)和響應(yīng),在所有感知層收集的數(shù)據(jù)進(jìn)入事件中心后,在策略管控下,在安全主數(shù)據(jù)、威脅庫(kù)和安全知識(shí)庫(kù)指引下進(jìn)行實(shí)時(shí)或離線處理,響應(yīng)系統(tǒng)會(huì)做出各種符合相應(yīng)場(chǎng)景的響應(yīng);以NIST CSF 框架為指導(dǎo),構(gòu)建資源中臺(tái),對(duì)外提供包括識(shí)別、保護(hù)、檢測(cè)、響應(yīng)、恢復(fù)在內(nèi)的完整的安全能力和功能的輸出;以數(shù)據(jù)驅(qū)動(dòng)豐富的安全應(yīng)用,通過(guò)各類安全應(yīng)用融合聯(lián)動(dòng),促使安全從原來(lái)的被動(dòng)、割裂走向融合、場(chǎng)景化且能夠統(tǒng)一管理。
由此可以看出,安全數(shù)據(jù)管控能力的集中性,多種應(yīng)用場(chǎng)景的適應(yīng)性,以及支撐業(yè)務(wù)發(fā)展的可持續(xù)性是該架構(gòu)的核心思路。
在本文建立了安全大數(shù)據(jù)平臺(tái)后,安全防護(hù)問(wèn)題實(shí)質(zhì)上就演變成了數(shù)據(jù)問(wèn)題,如何采集、計(jì)算、存儲(chǔ)、融合分析數(shù)據(jù),直至挖掘出安全威脅是整個(gè)安防體系需要考慮的核心問(wèn)題。如圖3 所示,安全大數(shù)據(jù)平臺(tái)的數(shù)據(jù)架構(gòu)在設(shè)計(jì)上與安全大數(shù)據(jù)平臺(tái)的體系架構(gòu)類似,主要由數(shù)據(jù)采集層、數(shù)據(jù)計(jì)算層、數(shù)據(jù)服務(wù)層和數(shù)據(jù)應(yīng)用層4 部分構(gòu)成。
圖3 安全大數(shù)據(jù)平臺(tái)數(shù)據(jù)架構(gòu)
2.2.1 數(shù)據(jù)采集層
數(shù)據(jù)采集層利用大數(shù)據(jù)技術(shù)收集網(wǎng)絡(luò)安全信息[5]。從業(yè)務(wù)類型來(lái)劃分,接入的數(shù)據(jù)主要包括安防應(yīng)用系統(tǒng)埋點(diǎn)日志類數(shù)據(jù)、流量類數(shù)據(jù)、安全資源類數(shù)據(jù)、安全知識(shí)情報(bào)類數(shù)據(jù)和安全告警類數(shù)據(jù)等。數(shù)據(jù)抽取工具和自定義程序?qū)崿F(xiàn)對(duì)數(shù)據(jù)庫(kù)、文本文件、流數(shù)據(jù)的接入。通過(guò)構(gòu)建數(shù)據(jù)引接系統(tǒng),支持多源異構(gòu)數(shù)據(jù)接入,引入Kafka 數(shù)據(jù)高速傳輸組件,能夠?qū)崿F(xiàn)流量削峰,建立高效數(shù)據(jù)傳輸通道,最大化數(shù)據(jù)吞吐率,實(shí)現(xiàn)數(shù)據(jù)高速采集傳輸,減少數(shù)據(jù)時(shí)延,滿足對(duì)實(shí)時(shí)性要求更高的應(yīng)用場(chǎng)景。
2.2.2 數(shù)據(jù)計(jì)算層
對(duì)于安全數(shù)據(jù)分析場(chǎng)景,數(shù)據(jù)處理需要實(shí)現(xiàn)流批一體化。從數(shù)據(jù)處理實(shí)時(shí)性來(lái)看,對(duì)一些時(shí)延性要求不高的業(yè)務(wù)場(chǎng)景,一般采用批處理方式,而對(duì)于實(shí)時(shí)處理要求比較高的業(yè)務(wù)場(chǎng)景,較多采用流式處理引擎,其處理過(guò)程為:數(shù)據(jù)同步工具從業(yè)務(wù)系統(tǒng)庫(kù)實(shí)時(shí)增量同步數(shù)據(jù)到Kafka;數(shù)據(jù)通過(guò)Kafka傳輸,經(jīng)過(guò)消費(fèi)同步到安全數(shù)據(jù)平臺(tái)的數(shù)據(jù)湖中;另外數(shù)據(jù)經(jīng)過(guò)實(shí)時(shí)計(jì)算引擎Flink 處理后,直接推送到前端數(shù)據(jù)應(yīng)用中,進(jìn)行數(shù)據(jù)可視化展示。流式計(jì)算的具體處理流程如圖4 所示。
圖4 流式計(jì)算處理過(guò)程
本層引入離線和實(shí)時(shí)數(shù)倉(cāng)。數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)采用分層的設(shè)計(jì),這樣設(shè)計(jì)的原因是對(duì)于海量安全數(shù)據(jù),需要對(duì)數(shù)據(jù)進(jìn)行組織規(guī)劃,使其具有清晰的數(shù)據(jù)結(jié)構(gòu),方便數(shù)據(jù)有秩序地流轉(zhuǎn),并且在數(shù)據(jù)開(kāi)發(fā)過(guò)程中,能夠減少重復(fù)開(kāi)發(fā),統(tǒng)一數(shù)據(jù)口徑。
2.2.3 數(shù)據(jù)服務(wù)層
經(jīng)過(guò)數(shù)據(jù)計(jì)算后,主要輸出的數(shù)據(jù)服務(wù)能力包括數(shù)據(jù)資源目錄服務(wù)、主數(shù)據(jù)服務(wù)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)共享服務(wù)、數(shù)據(jù)質(zhì)量服務(wù)、數(shù)據(jù)血緣分析服務(wù)和元數(shù)據(jù)管理服務(wù)。每一類數(shù)據(jù)服務(wù)都由一組服務(wù)接口組成。
2.2.4 數(shù)據(jù)應(yīng)用層
通過(guò)數(shù)據(jù)服務(wù)層打通各類安全數(shù)據(jù)與安全應(yīng)用的通道,實(shí)現(xiàn)無(wú)縫銜接,以數(shù)據(jù)驅(qū)動(dòng)安全業(yè)務(wù)發(fā)展。
早期安全應(yīng)用系統(tǒng)的建設(shè)思路是圍繞如何將業(yè)務(wù)IT 化,而數(shù)據(jù)只是這個(gè)過(guò)程中自然而然產(chǎn)生的結(jié)果,即IT 化的“副產(chǎn)品”。隨著數(shù)據(jù)處理技術(shù)(Data Technology,DT)時(shí)代的到來(lái),越來(lái)越多的企業(yè)認(rèn)識(shí)到了數(shù)據(jù)資產(chǎn)的重要性以及數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)決策和產(chǎn)品智能兩大方面的應(yīng)用價(jià)值,其中數(shù)據(jù)治理是實(shí)現(xiàn)數(shù)據(jù)效能、數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)的關(guān)鍵步驟。
數(shù)據(jù)接入引擎從多個(gè)業(yè)務(wù)源系統(tǒng)收集了很多數(shù)據(jù),包括流量、病毒、漏洞等多種數(shù)據(jù)。分析發(fā)現(xiàn),這些數(shù)據(jù)種類多,字段名稱、字符大小不統(tǒng)一。為了能夠充分利用這些數(shù)據(jù),需要對(duì)這些數(shù)據(jù)進(jìn)行治理工作。數(shù)據(jù)治理是頂層設(shè)計(jì)、戰(zhàn)略規(guī)劃方面的內(nèi)容,是數(shù)據(jù)管理活動(dòng)的總綱和指導(dǎo),指明數(shù)據(jù)管理過(guò)程中哪些決策要被制定,以及由誰(shuí)來(lái)負(fù)責(zé),更強(qiáng)調(diào)組織模式、職責(zé)分工和標(biāo)準(zhǔn)規(guī)范。數(shù)據(jù)治理的本質(zhì)是組織對(duì)數(shù)據(jù)的可用性、完整性和安全性的整體管理。其中,可用性是指數(shù)據(jù)可用、可信且有質(zhì)量保證,不會(huì)因?yàn)榉治鼋Y(jié)果的準(zhǔn)確性造成偏差,可以根據(jù)數(shù)據(jù)分析結(jié)果做業(yè)務(wù)決策;完整性指數(shù)據(jù)需覆蓋各類數(shù)據(jù)應(yīng)用;安全性指治理和分享過(guò)程中安全可控。
數(shù)據(jù)治理的整體方法論是先確定數(shù)據(jù)應(yīng)用、數(shù)據(jù)資產(chǎn)的需求,接著確定需要哪些數(shù)據(jù),之后確定從哪種數(shù)據(jù)源獲取數(shù)據(jù)。在具體實(shí)踐中,這種構(gòu)建數(shù)據(jù)流的過(guò)程,能夠在很大程度上解決分布在IT系統(tǒng)里各個(gè)不同子系統(tǒng)之間的數(shù)據(jù)孤島問(wèn)題。用一條完整的數(shù)據(jù)流將不同子系統(tǒng)之間的數(shù)據(jù)孤島打通,同時(shí)應(yīng)用于不同的應(yīng)用場(chǎng)景,這和構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的流程很類似,從某種意義上講,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)本身就是一個(gè)數(shù)據(jù)治理的過(guò)程。
在實(shí)踐過(guò)程中,發(fā)現(xiàn)網(wǎng)絡(luò)安全數(shù)據(jù)具有以下特點(diǎn):
(1)數(shù)據(jù)量大,比如流量數(shù)據(jù);
(2)數(shù)據(jù)類型繁多,比如病毒數(shù)據(jù)、流量數(shù)據(jù)、漏洞數(shù)據(jù)等;
(3)數(shù)據(jù)增長(zhǎng)速度快,比如各種安防設(shè)備、網(wǎng)絡(luò)設(shè)備、安全應(yīng)用系統(tǒng)每時(shí)每刻都在產(chǎn)生與安全相關(guān)的日志信息,比如用戶會(huì)話日志信息、用戶操作行為日志等;
(4)數(shù)據(jù)價(jià)值密度低,潛在價(jià)值高,以流量數(shù)據(jù)為例,在連續(xù)不斷的流量會(huì)話數(shù)據(jù)中,可能有價(jià)值的數(shù)據(jù)僅僅就那么幾條,但是作為攻擊的某種特征,往往就具有很高的價(jià)值。
結(jié)合數(shù)據(jù)的特點(diǎn),在數(shù)據(jù)倉(cāng)庫(kù)模型建設(shè)階段,依靠分布式計(jì)算平臺(tái)作為支撐,以維度建模為核心理念,基于維度數(shù)據(jù)模型總線架構(gòu),構(gòu)建一致性的維度和事實(shí),從而構(gòu)造公共數(shù)據(jù)模型架構(gòu)體系。數(shù)據(jù)模型架構(gòu)如圖5 所示。
圖5 數(shù)據(jù)模型架構(gòu)
表數(shù)據(jù)模型主要分為操作數(shù)據(jù)(Operational Data Store,ODS)層、公共維度模型(Common Data Model,CDM)層和應(yīng)用數(shù)據(jù)(Application Data Store,ADS)層3 層。其中公共維度模型層包括明細(xì)數(shù)據(jù)(Data Warehouse Detail,DWD)層和數(shù)據(jù)服務(wù)(Data Warehouse Service,DWS)層。在ODS 層,幾乎無(wú)處理地將業(yè)務(wù)源數(shù)據(jù)同步到數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,根據(jù)業(yè)務(wù)需求及稽核和審計(jì)要求保存歷史數(shù)據(jù)、清洗數(shù)據(jù),同時(shí)對(duì)數(shù)據(jù)進(jìn)行打標(biāo)簽處理。CDM 層用于存放明細(xì)事實(shí)數(shù)據(jù)、維表數(shù)據(jù)以及公共指標(biāo)匯總數(shù)據(jù),其中明細(xì)事實(shí)表數(shù)據(jù)包括事務(wù)性事實(shí)表、周期性快照事實(shí)表和累積快照事實(shí)表。明細(xì)事實(shí)數(shù)據(jù)、維表數(shù)據(jù)一般根據(jù)ODS 層數(shù)據(jù)加工生成,公共指標(biāo)匯總數(shù)據(jù)一般根據(jù)維表和明細(xì)事實(shí)數(shù)據(jù)加工而成。ADS層用于存放數(shù)據(jù)產(chǎn)品個(gè)性化的統(tǒng)計(jì)指標(biāo)數(shù)據(jù),根據(jù)CDM 層和ODS 層加工生成。
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)治理包含了元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、主數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)管理和數(shù)據(jù)安全管理。通過(guò)數(shù)據(jù)治理平臺(tái)定義大數(shù)據(jù)平臺(tái)的數(shù)據(jù)結(jié)構(gòu)、質(zhì)量規(guī)則和數(shù)據(jù)標(biāo)準(zhǔn),實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)管控和治理。同時(shí),大數(shù)據(jù)平臺(tái)的分析結(jié)果也可以反哺數(shù)據(jù)治理平臺(tái),形成更多樣的可信賴數(shù)據(jù)服務(wù)。
面對(duì)數(shù)據(jù)架構(gòu)和數(shù)據(jù)應(yīng)用建設(shè)的全新挑戰(zhàn),隨著大數(shù)據(jù)生態(tài)與技術(shù)的融合發(fā)展,本文引入了安全大數(shù)據(jù)湖的概念。數(shù)據(jù)湖這一概念最早于2010 年由James Dixon 在博客中提出。James Dixon 認(rèn)為,如果將應(yīng)用層數(shù)據(jù)比喻為瓶裝水,即它是經(jīng)過(guò)凈化、過(guò)濾、消毒處理后能夠直接飲用的,與之相反,數(shù)據(jù)湖則管理從各類數(shù)據(jù)源引接匯聚的原生態(tài)數(shù)據(jù)。Gartner 對(duì)數(shù)據(jù)湖的正式定義:除了原始數(shù)據(jù),還有各種數(shù)據(jù)資產(chǎn)的存儲(chǔ)實(shí)例的集合。
本文結(jié)合數(shù)據(jù)湖概念與網(wǎng)絡(luò)安全應(yīng)用項(xiàng)目實(shí)踐,給出了安全大數(shù)據(jù)湖存儲(chǔ)組件示意圖,如圖6所示。
圖6 安全大數(shù)據(jù)湖存儲(chǔ)組件
從數(shù)據(jù)視角來(lái)看,安全大數(shù)據(jù)湖本質(zhì)上是一種數(shù)據(jù)存儲(chǔ)策略。從存儲(chǔ)形式來(lái)看,安全大數(shù)據(jù)湖有基于Hadoop 生態(tài)的分布式存儲(chǔ)環(huán)境,同時(shí)數(shù)據(jù)存儲(chǔ)方面擴(kuò)展了Elasticsearch 集群存儲(chǔ)、FastDFS 集群存儲(chǔ)、圖數(shù)據(jù)庫(kù)集群存儲(chǔ)和TiDB 集群存儲(chǔ)。它們是分布式數(shù)據(jù)存儲(chǔ)系統(tǒng),提供海量的數(shù)據(jù)存儲(chǔ)管理能力,支持海量結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)的混合存儲(chǔ)。搭配TiDB數(shù)據(jù)庫(kù),實(shí)現(xiàn)混合事務(wù)和分析處理(Hybrid Transaction and Analytical Process,HTAP)場(chǎng)景下的高性能數(shù)據(jù)處理。從技術(shù)視角來(lái)看,安全數(shù)據(jù)湖架構(gòu)不能替代現(xiàn)有信息基礎(chǔ)架構(gòu)——安全數(shù)據(jù)平臺(tái)架構(gòu),相反,它們是現(xiàn)有基礎(chǔ)架構(gòu)的重要補(bǔ)充。安全數(shù)據(jù)湖是一種現(xiàn)代化的支持?jǐn)?shù)據(jù)管理、數(shù)據(jù)分析、應(yīng)用創(chuàng)新的基礎(chǔ)架構(gòu),能夠?qū)崿F(xiàn)新的信息訪問(wèn)和數(shù)據(jù)處理機(jī)制,支持日益復(fù)雜、多樣化、分布式的工作負(fù)載。
隨著網(wǎng)絡(luò)攻擊日益增多,攻擊手段也越來(lái)越先進(jìn)、復(fù)雜,危害程度也呈上升趨勢(shì),行業(yè)開(kāi)始尋求自動(dòng)化網(wǎng)絡(luò)安全解決方案。大數(shù)據(jù)技術(shù)、機(jī)器學(xué)習(xí)等人工智能技術(shù)的快速發(fā)展,推動(dòng)了網(wǎng)絡(luò)安全技術(shù)的不斷升級(jí),現(xiàn)如今已經(jīng)可以通過(guò)AI 分析進(jìn)行數(shù)據(jù)的挖掘和預(yù)測(cè)。
如圖7 所示,本文給出了網(wǎng)絡(luò)安全數(shù)據(jù)挖掘分層示意圖,總共包括特征數(shù)據(jù)層、中間數(shù)據(jù)層和應(yīng)用場(chǎng)景層3 層。
圖7 網(wǎng)絡(luò)安全數(shù)據(jù)挖掘分層
在基于收集匯聚安全數(shù)據(jù)的前提下,對(duì)全網(wǎng)數(shù)據(jù)進(jìn)行分析,通過(guò)定義不同的分析場(chǎng)景建立相應(yīng)的行為分析規(guī)則,如異常分析、流量分析、脆弱性分析等,在中間數(shù)據(jù)層,結(jié)合攻擊策略、技術(shù)和常 識(shí)(Adversarial Tactics,Techniques and Common Knowledge,ATT& CK)知識(shí)框架體系、威脅情報(bào)知識(shí)體系、安全資源知識(shí)體系、資產(chǎn)體系等,采用統(tǒng)計(jì)、碰撞、關(guān)聯(lián)、預(yù)測(cè)、機(jī)器學(xué)習(xí)、知識(shí)推理等手段將分析模型分別映射到攻擊階段和技戰(zhàn)術(shù),從而建立系統(tǒng)內(nèi)部的ATT& CK 知識(shí)體系。結(jié)合ATT& CK知識(shí)體系,對(duì)全網(wǎng)數(shù)據(jù)進(jìn)行行為分析、脆弱性分析和網(wǎng)絡(luò)流量分析,將分析結(jié)果分別映射于ATT& CK知識(shí)框架中的攻擊階段和技戰(zhàn)術(shù),建立系統(tǒng)內(nèi)部的ATT& CK 知識(shí)體系。依據(jù)ATT& CK 知識(shí)體系追蹤攻擊者的活動(dòng)軌跡,發(fā)現(xiàn)攻擊者當(dāng)前所處的攻擊階段,從而進(jìn)行有效地響應(yīng)阻斷、追溯、行為確認(rèn)等。同時(shí)為展示完整的攻擊鏈提供數(shù)據(jù)支撐,如攻擊者利用釣魚郵件、水坑等攻擊或使用帶毒外設(shè)讓內(nèi)網(wǎng)主機(jī)反向連接,然后攻擊者利用持久化或提權(quán)等相關(guān)技術(shù)控制內(nèi)網(wǎng)終端,進(jìn)而啟動(dòng)惡意軟件掃描內(nèi)網(wǎng)中其他主機(jī),最后利用相關(guān)掃描信息控制目標(biāo)主機(jī)并造成數(shù)據(jù)泄露。整個(gè)ATT& CK 的攻擊鏈路為初始訪問(wèn)—持久化—權(quán)限升級(jí)—掃描發(fā)現(xiàn)—橫向移動(dòng)—數(shù)據(jù)滲漏。
以安全事件溯源分析為例,安全事件溯源分析能夠基于海量異構(gòu)數(shù)據(jù)進(jìn)行威脅數(shù)據(jù)采集分析,支持從大量網(wǎng)絡(luò)安全數(shù)據(jù)及安全事件中找出存在的關(guān)系,并從這些數(shù)據(jù)中抽取出真正重要的少量數(shù)據(jù)。借助先進(jìn)的智能事件關(guān)聯(lián)分析引擎,平臺(tái)能夠?qū)崟r(shí)不間斷地對(duì)所有范式化后的日志流進(jìn)行安全事件關(guān)聯(lián)分析。結(jié)合全網(wǎng)數(shù)據(jù)(流量數(shù)據(jù)、終端數(shù)據(jù)、脆弱性數(shù)據(jù)等)及分析結(jié)果數(shù)據(jù)(終端行為數(shù)據(jù))對(duì)發(fā)現(xiàn)的威脅事件進(jìn)行溯源分析,如追溯病毒的來(lái)源、傳播途徑、感染范圍等。外設(shè)接入、文件傳輸、網(wǎng)絡(luò)連接等行為結(jié)合終端病毒日志、網(wǎng)絡(luò)流量日志、威脅情報(bào)檢測(cè)結(jié)果日志等數(shù)據(jù)進(jìn)行綜合分析并追溯病毒來(lái)源及發(fā)現(xiàn)疑似病毒傳播的行為,如在使用的外設(shè)中發(fā)現(xiàn)病毒,傳輸?shù)奈募邪l(fā)現(xiàn)病毒,網(wǎng)絡(luò)病毒攻擊等。同時(shí)支持下鉆到原始數(shù)據(jù)來(lái)對(duì)攻擊事件進(jìn)行分析取證,并對(duì)回溯到的攻擊源,利用威脅信息進(jìn)行驗(yàn)證。此外,支持攻擊鏈模型對(duì)攻擊事件進(jìn)行溯源分析,通過(guò)將產(chǎn)生的安全事件按攻擊過(guò)程分為信息收集、網(wǎng)絡(luò)入侵、命令控制、橫向滲透、目標(biāo)達(dá)成、痕跡清理等類別,在真實(shí)的攻擊事件發(fā)生后,通過(guò)攻擊鏈模型結(jié)合人工分析判斷,找到真實(shí)攻擊源。
安全中臺(tái)承載著整合分享內(nèi)部所有數(shù)據(jù)的角色,它將所有的數(shù)據(jù)整合在一起,并通過(guò)權(quán)限控制,充分地實(shí)現(xiàn)數(shù)據(jù)共享,從而聚合所有業(yè)務(wù)部門去探索數(shù)據(jù)的應(yīng)用。安全數(shù)據(jù)服務(wù)基于大數(shù)據(jù)架構(gòu)提供統(tǒng)一的數(shù)據(jù)服務(wù)能力,是數(shù)據(jù)對(duì)外開(kāi)放和“縱向貫通”“橫向互聯(lián)”的共享通道。它提供實(shí)時(shí)接口服務(wù)和批量作業(yè)服務(wù),從數(shù)據(jù)定義、服務(wù)開(kāi)發(fā)、服務(wù)消費(fèi)、運(yùn)行監(jiān)控4 個(gè)方面著手,實(shí)現(xiàn)數(shù)據(jù)資源的閉環(huán)管理。
數(shù)據(jù)服務(wù)共享平臺(tái)包括資源目錄管理、數(shù)據(jù)使用、數(shù)據(jù)服務(wù)開(kāi)發(fā)、服務(wù)控制、調(diào)度管理、運(yùn)行監(jiān)控、運(yùn)行維護(hù)和數(shù)據(jù)分析與信息展現(xiàn),平臺(tái)應(yīng)用架構(gòu)如圖8 所示。
圖8 數(shù)據(jù)服務(wù)共享平臺(tái)應(yīng)用架構(gòu)
3.4.1 資源目錄與元數(shù)據(jù)管理
資源目錄與元數(shù)據(jù)管理是可交換數(shù)據(jù)元數(shù)據(jù)的結(jié)構(gòu)化展現(xiàn)。該應(yīng)用支持?jǐn)?shù)據(jù)庫(kù)、大數(shù)據(jù)、Web 服務(wù)等多類型數(shù)據(jù)資源技術(shù)元數(shù)據(jù)的采集和業(yè)務(wù)元數(shù)據(jù)的維護(hù)能力,支持面向消費(fèi)者業(yè)務(wù)視圖(比如按主題劃分)的創(chuàng)建,提供資源注冊(cè)、維護(hù)和搜索等功能。
3.4.2 數(shù)據(jù)使用
數(shù)據(jù)使用應(yīng)用主要面向消費(fèi)方,消費(fèi)者可通過(guò)平臺(tái)申請(qǐng)數(shù)據(jù)資源及數(shù)據(jù)管理方審批處理;消費(fèi)者可通過(guò)注冊(cè)功能自行在平臺(tái)注冊(cè),并可在瀏覽數(shù)據(jù)資源后提交資源申請(qǐng)(拉)和訂閱(推);消費(fèi)方可查看所有申請(qǐng)的狀態(tài)及歷史記錄,可查看申請(qǐng)的匯總情況。此外,該平臺(tái)支持單個(gè)或批量申請(qǐng)。
3.4.3 數(shù)據(jù)服務(wù)管理
數(shù)據(jù)服務(wù)管理應(yīng)用主要面向開(kāi)發(fā)人員,支持通過(guò)服務(wù)發(fā)布組件實(shí)現(xiàn)數(shù)據(jù)服務(wù)的快速開(kāi)發(fā),開(kāi)發(fā)完成的RESTFul 服務(wù)自動(dòng)注冊(cè)在數(shù)據(jù)服務(wù)共享平臺(tái)中。開(kāi)發(fā)人員可以在平臺(tái)中瀏覽查看開(kāi)發(fā)完成的數(shù)據(jù)服務(wù)消費(fèi)方。如果消費(fèi)方需要使用數(shù)據(jù)服務(wù),則需要在平臺(tái)中發(fā)起申請(qǐng),審批通過(guò)后根據(jù)平臺(tái)中提供的服務(wù)信息使用數(shù)據(jù)。
3.4.4 服務(wù)控制
平臺(tái)提供用戶對(duì)數(shù)據(jù)服務(wù)過(guò)程中的權(quán)限控制,包含IP 白名單、服務(wù)狀態(tài)、調(diào)用關(guān)系管理等。
3.4.5 調(diào)度管理
調(diào)度管理是作業(yè)運(yùn)行的指揮中心??赏ㄟ^(guò)調(diào)度管理配置任務(wù)的調(diào)度策略,以及配置任務(wù)運(yùn)行的優(yōu)先級(jí)及觸發(fā)方式等。
3.4.6 運(yùn)行監(jiān)控
運(yùn)行監(jiān)控對(duì)整個(gè)平臺(tái)運(yùn)行過(guò)程中的狀態(tài)進(jìn)行監(jiān)控,包括物理資源、服務(wù)引擎、傳輸監(jiān)控、故障告警、消費(fèi)方等,同時(shí)提供查看日志和歷史記錄的功能。
3.4.7 統(tǒng)一運(yùn)維維護(hù)
為方便平臺(tái)使用的功能,統(tǒng)一運(yùn)維維護(hù)應(yīng)用支持資源目錄、作業(yè)模板、服務(wù)接口的導(dǎo)入導(dǎo)出。
3.4.8 數(shù)據(jù)統(tǒng)計(jì)分析與展示
數(shù)據(jù)統(tǒng)計(jì)分析與展示功能能夠針對(duì)平臺(tái)作業(yè)執(zhí)行情況、數(shù)據(jù)交換總量、數(shù)據(jù)接入態(tài)勢(shì)、數(shù)據(jù)消費(fèi)等進(jìn)行可視化分析和展示。
本文提出了基于大數(shù)據(jù)的安防體系建設(shè)思路,并通過(guò)大數(shù)據(jù)等技術(shù)手段構(gòu)建了安全數(shù)據(jù)中臺(tái)從而完善了安全防護(hù)技術(shù)體系。實(shí)踐證明,該體系在結(jié)構(gòu)上能夠有效彌補(bǔ)傳統(tǒng)安全防護(hù)架構(gòu)的不足。隨著大規(guī)模數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)分析、數(shù)據(jù)服務(wù)的發(fā)展,以及智能化安全運(yùn)營(yíng)的長(zhǎng)期深入應(yīng)用,從安全中臺(tái)的體系來(lái)看,安全威脅識(shí)別(Identification)—保護(hù)(Protection)—檢測(cè)(Detection)—響應(yīng)(Response)這一過(guò)程執(zhí)行將越來(lái)越及時(shí),攻擊者可利用時(shí)間窗口將越來(lái)越短。在未來(lái)的研究中,可以通過(guò)與云終端的聯(lián)動(dòng)實(shí)現(xiàn)網(wǎng)絡(luò)安全最大化。